Answers
在 Windows 上,GB2312 是 cp936 的别名,它是 GBK 或者 GB18030 我不太清楚了。
在其它平台,GB2312 还是真正的 GB2312,比如你在 Linux 上拿 Python 解析国内声明为 GB2312 的网页时一遇到生僻字或者繁体字就会报错了。
>>> print -l 简体中文 繁體中文| iconv -f utf-8 -t gb2312
�
��iconv: 未知 16 处的非法输入序列
>>> print -l 简体中文 繁體中文| iconv -f utf-8 -t gbk
�
��
前一命令在「體」字上转码出错了,后一命令成功执行。
alpent
answered 10 years, 3 months ago