如何设计一种只需要针对文章的标题进行分词搜索,而不需要对文章内容全文搜索?


例如:文章标题是: 中国劣货盛行的原因
假设用户输入:“中国房价上涨的原因” 采用某种分词技术 分词后为:中国 房价 上涨 的 原因
如何在后台进行搜索匹配并将全部匹配的信息排在第一条,之后将近似的信息靠后排序?
后台的文章标题是否要在建立文章的同时也进行分词并存储?
期待你的解答。Thanks.

全文索索 中文分词 分词搜索 分词 搜索引擎

Celica 11 years, 4 months ago

首先,在搜索引擎里的内容一定是分次以后的一个索引,也就是倒排索引( http://zh.wikipedia.org/wiki/%E5%80%9... )。
排序问题比较复杂,你这里说的是完全按照相关性来排,一般的搜索引擎都提供相关性排序算法,只是不同的引擎算法和实现不同。
但是在实际运用中,不同的业务需求,对相关性的要求也不一样,往往要加上许多其他的因子,所以排序算法一般自己去实现。
如果想了解相关性排序的算法,建议可以去看看 Lucene 的相关实现。

想死不好意思说 answered 11 years, 4 months ago

Your Answer