如何判别一个网站是不是指定主题的网站呢?求各位大神帮忙~~~
这是我硕士论文的一部分,毕业不容易,求各位大神帮忙想想解决思路~~~
问题是:如何判别一个网站是不是包含农业供求信息的网站?
在一个农业网站里,供求信息只是一个版块(其他的版块还有农业资讯、新闻、农业企业名录、栽培技术等等),如何判别一个网站是不是包含农业供求信息的网站呢?
之前看了看有关网站分类的文献,都是在对整个网站的主题进行分类(比如判断一个网站是不是农业网站),都是网站级别的分类,基本思路是提取网站的部分网页,然后提取结构特征词(链接文本中的特征词)和内容特征词(网页正文中的特征词),然后用特征词组成VSM模型,然后用一些文本分类算法(贝叶斯分类、SVM)进行二分类。
但是,我现在需要判别的只是网站内的一个版块,如何获取供求信息的网页呢?获取多少网页呢?如何分类呢?
请教各位老师帮忙想想。。。我现在一点思路都木有。。
丶琴音似君语
10 years, 6 months ago