对于一个搜索引擎,如何实时监测网页的更新并且快速更新索引?


请问对于一个搜索引擎,如何实时监测网页的更新?
对于新抓取下来的网页,如何快速更新索引,同时更新时不影响搜索服务?
我现在用的nutch来做搜索引擎,采用Lucene建立索引。

lucene 搜索技术

Tosaka 12 years, 2 months ago

不可能实时监测的,除非:
1. 网站是你自己的,比如百度贴吧
2. 网站用你提供的接口主动告诉你“我在XXX时候进行了更新”

至于更新索引,技术就多了。
比如有两套索引,一套前台服务一套后台更新,更新完之后切换(对分布式系统来说可能就是改一下DNS);也可以每个最小单元的地方都是这样可更新的结构。很多数据库自己就是支持Transact的,也就不用考虑这个问题了。

有病的小鸡肉 answered 12 years, 2 months ago

Your Answer