在做爬虫的时候爬到的中文在控制台中显示乱码,编辑器用的是notepad++ 是在powershell中运行的python程序。 在网上搜索了也没有找到合适的解决方法 请问各位这个如何解决? 先谢谢了!
python3.x python python2.7 python-爬虫 中文乱码
首先,code utf8加了没? 最前面加上下面这句
#-*_coding:utf8-*-
其次, 有些网页不一定是utf8编码的, 这样的网页里的中文爬下来要先转码才能打印, 例如,很多网页是GBK编码的,可以用下面这一行代码转成Unicode的
unicodePage = myPage.decode("gbk").encode('utf-8').decode('utf-8')
网页上的编码方式和你本地环境的编码方式不一样,设置本地编码为网页的编码方式。
Python3 下载rar文件 打开后出错
请问有人接触过类似pagekite的免费开源python项目吗
scrapy抓取的GBK编码的网页,怎么转为utf-8?
用python抓新浪首页,返回的是乱码
一段中文字符,统计每个字出现的次数,求解决思路
用BS4将信息写入文件时遇到的问题