Answers
打分机制
其实这样的需求成功率做到80%基本应该就算可以了, 以前也研究过一段时间类似的需求,
思路基本是这样:
解析出页面中所有的元素,对页面中的元素进行分析打分;
打分:
1.标签中包含字数最多的元素; +1分
2.内容中会包含大部分的<p>或常出现在内容中的标签(多抽取一些网站比较一下),如每包含一个<p>标签; +0.2分
3.元素上包括class="content"这样常见的样式的; +1分
4.获取网页的title,keywords,description, 然后对其进行分词, 元素中命中某个词+1分 (也可以命中一次加1分)
5.内容的元素中通过不包括<ul><li>这种的标签, 如果出现这种标签的 -0.5分
-------------------------------------
找出该加分与减分的元素,然后相应加减的分数要设置合理。
茵蒂克丝酱
answered 12 years ago