目前有个需求,需要建立专业领域的词库,怎么才能快速准确的建立? 现在的做法是通过网站现有的数据,根据通用词库进行分词,进行基本过滤之后,人工进行审核。
coreseek sphinx
像Sphinx、Lucene等词库都是手工建立的,机器目前还没那么智能到能够帮你准确的定位分词的机制,因为特别是专业领域的词还有些比较生僻的专业词,机器更是分析不出来,这些就需要手工来处理了,所以,你还是慢慢自己弄吧。
sphinx 主索引与增量索引数据重复问题
关于 coreseek 中文搜索复合词/同义词搜索不到结果问题
coreseek 支持sqlite
Coreseek安装失败,求指点
安装sphinx后安装Coreseek,automake出错
coreseek 阀值匹配