Answers
根据概率进行训练
比如
你很给力啊
如果按常规的分词是
你/很/给/力/啊
很是形容词
给是动词
力是名词
这是词性
但是给和力一般不会单独出现,之前也没有这种组合
你可以尝试性的把它俩合并,
你/很/给力/啊
如果以后你多次匹配到这个词,那么说明,这两个字是一个词的可能性很高。
再比如
我勒个去
喵勒个咪
上勒个学
根据它出现的概率,就可以判断出是否是新词了。
推荐你看一本书《数学之美》,吴军写的,算是搜索引擎方面的入门书了。
里面讲到搜索引擎的分词现在全部走的都是数学概率模型,它根本不去理解语义,完全是基于概率的训练。只要数据量够大,那么它的准确率就非常高。因为语义分析效率太低了,一段比较长的话用语义树表达出来,无比庞大,而且遇到歧义,通假字等等,也是一筹莫展,至于维护更是困难。
ピカピカ猫
answered 12 years, 7 months ago