golang解析中文字符html出错

0 0

golang解析中文字符html出错

正在用golang编写一个小程序，需要从html中拿到一些数据
但是在parse过程出现了很多问题：
最开始是直接使用golang自带的package来parse html，但是因为html本身是简体中文的encoding，同时html中还包含了一些繁体中文的字符，所以parse过程中总是出错;
于是接下来我尝试使用先指定encoding方式来得到reader，然后再parse html但是同样得到错误；
最后我不得不使用正则来得到一些特定element的value，想请教各位是否遇到过类似的问题？如果有是怎么解决的？

另外一个问题：现在用正则过程中也出现了问题，如果一个element中包含中文，那么使用正则过程中得到的值是一个乱码，请问有什么解决方法吗？

9 years, 12 months ago

満艦飾光頭

満艦飾光頭 9 years, 12 months ago

我也遇到过这样的问题，我是把html文件用记事本打开然后保存成unicode编码的，然后就ok了

answered 9 years, 12 months ago

某只兔斯基丨

某只兔斯基丨 answered 9 years, 12 months ago

golang解析中文字符html出错

満艦飾光頭

Answers

某只兔斯基丨

Your Answer