问题背景: 对生物、化学、医学等领域期刊进行分类,分类对象都是英文摘要;
目的: 因为噪声太大,需要去掉一些影响分类的停用词;
nltk的corpus给出了一些常用停用词,比如‘is’、‘we’、‘as’等。 但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语;
请教有没有什么好方法预先收集到这些停用词?
数据挖掘与机器学习 文本分类 nltk
分类器指定分出50个类,但实际上只分出5个类,什么原因造成?
NLTK中名词词性是通过什么原理去判断的?
nltk中对词性进行过滤,是不是特别消耗计算量?
有没有相关NLTK或者NLP相关工具的使用教程啊?
安装nltk出现问题
怎样才能通俗易懂地解释 EM 算法?