分类算法中如何收集停用词?


问题背景: 对生物、化学、医学等领域期刊进行分类,分类对象都是英文摘要;

目的: 因为噪声太大,需要去掉一些影响分类的停用词;

nltk的corpus给出了一些常用停用词,比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语;

请教有没有什么好方法预先收集到这些停用词?

数据挖掘与机器学习 文本分类 nltk

幸福的小帐篷 9 years, 3 months ago

Your Answer