如何提取网页文章中的标题?


有很多阅读类型的应用(例如Pocket)都可以将网页重新排版,并且将文章中的标题提取出来。不知是如何做到的? 下面是Pocket和网页的截图: 请输入图片描述

浏览器 ios mac iphone

yushi 11 years, 4 months ago

从网页中萃取内容和标题有很多算法,一般的搜索引擎在索引的时候都需要这么一个步骤,目前网上最通行的是 readablitily 的算法,这里有两个程序实现

  1. php实现 https://github.com/feelinglucky/php-readability
  2. node.js实现 https://code.google.com/p/arc90labs-readability/
瞎猫都凉了 answered 11 years, 4 months ago

Your Answer