如何利用java语言编写一个小型的搜索引擎?大致的思路是什么?
这个搜索引擎从存有微博内容的数据库中搜出不同时间段内的微博数目,并且能按相关度、时间排序。微博内容经人工筛选后放入数据库中。按关键词搜索出相应的内容后,搜索系统要能给出相关推荐。
这是我们老师给我们布置的一个作业,还请大神给出一个大致的系统框架,谢谢。
Armlo
10 years, 7 months ago
Answers
搜索引擎,最关键要解决的是分词。查找和搜索的区别是:
查找:哪些数据中含有我要找的东东?
搜索:我要查找的东东被包含到哪些数据中?
如果是自动分词的话,可能中文内容的分词都不太理想,即使现在国内号称最专业的某搜索引擎,在中文分词上都存在缺憾。不知道你所说的这个人工筛选是人工分词还是人工挑选数据。如果你有人工分词,那么相对就容易一些。
首先,把人工分词后的关键字做到一个大表中A中,然后把微博内容的原始数据建立到B中,然后再创建表C,在表C中记录A中的关键字和B中的原始数据的多对多关系。然后搜索的时候就是查找关键字在A中并且与B中数据有关系的结果集。
如果没有人工分词,那么对于中文内容,请去搜索:庖丁分词 这个是免费的,做作业的话够用了
这个是最简单的思路,真正的引擎比这个复杂很多。你可以试试
看海的小羽
answered 10 years, 7 months ago