谷歌描述抽取的方法


大家都知道,谷歌描述是谷歌抓取网页中的相关内容。
我现在碰到的问题是怎么自己实现?
抽取的文本有两个要求:
1,相关
2,可读
不局限于php,python、java、js都行,提供个思路也好

google php

死死掉算了 12 years ago

打分机制

其实这样的需求成功率做到80%基本应该就算可以了, 以前也研究过一段时间类似的需求,

思路基本是这样:
解析出页面中所有的元素,对页面中的元素进行分析打分;

打分:
1.标签中包含字数最多的元素; +1分
2.内容中会包含大部分的<p>或常出现在内容中的标签(多抽取一些网站比较一下),如每包含一个<p>标签; +0.2分
3.元素上包括class="content"这样常见的样式的; +1分
4.获取网页的title,keywords,description, 然后对其进行分词, 元素中命中某个词+1分 (也可以命中一次加1分)
5.内容的元素中通过不包括<ul><li>这种的标签, 如果出现这种标签的 -0.5分
-------------------------------------
找出该加分与减分的元素,然后相应加减的分数要设置合理。

茵蒂克丝酱 answered 12 years ago

Your Answer