在任意字符集下正常显示网页的方法（续）

2005-08-21

出处：http://www.coolcode.cn/?p=7

前几天写了一篇在任意字符集下正常显示网页的方法，里面介绍的很简单，就是把前128个字符以外的字符集都用NCR来表示，但是具体怎么转化我没有介绍，因为当时我觉得太简单了。但是后来发现有人问这个问题，这里就详细说明一下。

首先第一步是要把源字符集的字符串转化为UTF-16字符集，做这一步是因为UTF-16字符集中的每个字符都是两个字节，后面处理起来很容易，而如果在源字符集上直接做处理则很复杂。源字符集可以从原网页中的meta标签中获得，也可以单独指定，我的程序是让用户在表单中指定源字符集，因为我不能保证用户提交的文件就一定是HTML文件（其他文件也是可以的，比如这个WordPress的汉化包源文件是个po文件，它里面的内容也可以这样处理），而且即使是HTML文件，里面也不一定就有用于指定字符集的meta标签，所以通过表单单独指定字符集比较保险。你可能会觉得将一种字符集转化为另一种字符集很复杂，确实如此，如果自己来实现的话，确实非常麻烦，但是用PHP来做却很容易，因为它里面已经包含这样的函数了，你可以通过iconv函数很容易的来实现各种字符集之间的转化，如果你的机器上没有安装iconv扩展，你也可以使用mb_convert_encoding函数，如果Multibyte String扩展也没有安装，那就没办法了，因为你要自己实现那么多种编码的转化基本上是不可能的，除非你是顶级大牛！推荐使用iconv，因为这个效率高，支持的字符集也更多。

做完上面那一步之后，接下来是以每两个字节为单位对字符串进行处理。这两个字节直接转化为数字就是&#xxxxx;中的xxxxx，如果这个数字小于128就直接使用这个字符（注意这里就变成单字节了），否则就使用&#xxxxx;的形式。这里有一点要注意，就是当这个数字是65279（16进制的0xFEFF）时，请把它忽略掉，因为这个是Unicode编码中的传输控制字符，而我们现在的字符串已经只有iso-8859-1编码中的前128个字符了，所以我们不需要它了。

好了，基本思路就是这样，下面是实现的程序：

函数的参数中，$encode是源字符集，$str是需要进行转化的字符串。返回结果是转化以后字符串。

分类：技术 | 标签： |

XUERON

心如花木，向阳而生

在任意字符集下正常显示网页的方法（续）

发表评论取消回复

在任意字符集下正常显示网页的方法（续）

发表评论 取消回复

发表评论取消回复