谷歌描述抽取的方法

0 0

谷歌描述抽取的方法

大家都知道，谷歌描述是谷歌抓取网页中的相关内容。
我现在碰到的问题是怎么自己实现？
抽取的文本有两个要求：
1，相关
2，可读
不局限于php，python、java、js都行，提供个思路也好

google php

12 years, 5 months ago

死死掉算了

死死掉算了 12 years, 5 months ago

打分机制

其实这样的需求成功率做到80%基本应该就算可以了，以前也研究过一段时间类似的需求，

思路基本是这样：
解析出页面中所有的元素，对页面中的元素进行分析打分；

打分：
1.标签中包含字数最多的元素； +1分
2.内容中会包含大部分的<p>或常出现在内容中的标签（多抽取一些网站比较一下），如每包含一个<p>标签； +0.2分
3.元素上包括class="content"这样常见的样式的； +1分
4.获取网页的title,keywords,description, 然后对其进行分词，元素中命中某个词+1分（也可以命中一次加1分）
5.内容的元素中通过不包括<ul><li>这种的标签，如果出现这种标签的 -0.5分
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
找出该加分与减分的元素，然后相应加减的分数要设置合理。

answered 12 years, 5 months ago

茵蒂克丝酱

茵蒂克丝酱 answered 12 years, 5 months ago