中文分词动态添加生词


做中文分词的时候,有一个要实现词库动态增长的功能,想请问下有这方面经验的人能否给点入门级的指导性意见?

自然语言分析

御門小路樣 12 years, 6 months ago

根据概率进行训练

比如

你很给力啊

如果按常规的分词是

你/很/给/力/啊

很是形容词
给是动词
力是名词

这是词性

但是给和力一般不会单独出现,之前也没有这种组合

你可以尝试性的把它俩合并,

你/很/给力/啊

如果以后你多次匹配到这个词,那么说明,这两个字是一个词的可能性很高。

再比如

我勒个去

喵勒个咪

上勒个学

根据它出现的概率,就可以判断出是否是新词了。

推荐你看一本书《数学之美》,吴军写的,算是搜索引擎方面的入门书了。

里面讲到搜索引擎的分词现在全部走的都是数学概率模型,它根本不去理解语义,完全是基于概率的训练。只要数据量够大,那么它的准确率就非常高。因为语义分析效率太低了,一段比较长的话用语义树表达出来,无比庞大,而且遇到歧义,通假字等等,也是一筹莫展,至于维护更是困难。

ピカピカ猫 answered 12 years, 6 months ago

Your Answer