如何快速找出文档集中相似的文档?


有两个文档集dataset1和dataset2,各有100篇文档,其中dataset1和dataset2中的文档有可能讨论同一话题(比如都是关于饮食健康),如何找出这样的相似文档对?假如是遍历计算余弦相似度,需要计算100*100=10000次,有没有其它更好的办法??谢谢。。

数据挖掘 自然语言分析

乐园的厨师长 10 years, 7 months ago

Your Answer