分类算法中如何收集停用词？

0 0

问题背景： 对生物、化学、医学等领域期刊进行分类，分类对象都是英文摘要；

目的： 因为噪声太大，需要去掉一些影响分类的停用词；

nltk的corpus给出了一些常用停用词，比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语；

请教有没有什么好方法预先收集到这些停用词？

9 years, 8 months ago

幸福的小帐篷 9 years, 8 months ago