3000W的item,计算最相似的TopN,hdfs只有不到2T的容量,求有效的算法


如题,文档向量已经生成,因为hdfs容量不太够,所以计算起来有些难度

之前用余弦定理,在计算分子时需要两两相乘,数量级在800W * 800W之内,把hdfs都写满了还是不够,求有效算法

没有人吗?自己顶上去

hadoop mapreduce

囧囧随风酱 11 years, 5 months ago

Your Answer