golang解析中文字符html出错


正在用golang编写一个小程序,需要从html中拿到一些数据
但是在parse过程出现了很多问题:
最开始是直接使用golang自带的package来parse html,但是因为html本身是简体中文的encoding,同时html中还包含了一些繁体中文的字符,所以parse过程中总是出错;
于是接下来我尝试使用先指定encoding方式来得到reader,然后再parse html但是同样得到错误;
最后我不得不使用正则来得到一些特定element的value,想请教各位是否遇到过类似的问题?如果有是怎么解决的?

另外一个问题:现在用正则过程中也出现了问题,如果一个element中包含中文,那么使用正则过程中得到的值是一个乱码,请问有什么解决方法吗?

go

満艦飾光頭 9 years, 7 months ago

我也遇到过这样的问题,我是把html文件用记事本打开然后保存成unicode编码的,然后就ok了

某只兔斯基丨 answered 9 years, 7 months ago

Your Answer