我正在写一个爬虫，怎么通过网页内容误别出是否为中文网页？

0 0

因定制内容较多，暂时无发现现有爬虫框架满足要求，所以需要自己写（用redis做队列）。
我的问题是在爬虫得到一个网页之后， 怎么识别出这个网页是否为中文网页 ？

11 years, 9 months ago

天王洲雅典娜 11 years, 9 months ago

用 Google Chrome 的识别算法吧，支持 HTML，有 Python 绑定。

answered 11 years, 9 months ago

Domine answered 11 years, 9 months ago