采集程序如何智能分析出来主内容?


需求就是给一个网页地址,在不提供分析规则的情况下,9如何智能地提取出来这个地址的网页的主内容。

数据采集 采集 网页爬虫

失足老大爷 11 years, 5 months ago
  1. dom树查找
  2. xpath基于dom树更精确查找,同时可以剔除不需要的内容
  3. readability类似算法

如果网页写得不规范,或者各种编码问题,都会出错。
智能的实现需要很多算法和逻辑去实现。

suketai answered 11 years, 5 months ago

Your Answer