请问对于一个搜索引擎,如何实时监测网页的更新? 对于新抓取下来的网页,如何快速更新索引,同时更新时不影响搜索服务? 我现在用的nutch来做搜索引擎,采用Lucene建立索引。
lucene 搜索技术
不可能实时监测的,除非: 1. 网站是你自己的,比如百度贴吧 2. 网站用你提供的接口主动告诉你“我在XXX时候进行了更新”
至于更新索引,技术就多了。 比如有两套索引,一套前台服务一套后台更新,更新完之后切换(对分布式系统来说可能就是改一下DNS);也可以每个最小单元的地方都是这样可更新的结构。很多数据库自己就是支持Transact的,也就不用考虑这个问题了。
如何选择搜索引擎:Lucene、Sphinx还是MySQL的全文检索?
搜索中针对英文或中英混合这种词是如何处理呢?
lucene如体做中英文分词搜索
网站搜索中用户输入“所爱”,提示“你是不是想找:索爱”拼写纠错功能是如何实现的,请说的具体点
团购类网站设计全文索引问题
百度搜索时的“您要找的是不是”功能是如何实现的?