对于数据挖掘中数据的选择集和测试集的分离


问题是这样,我有两个数据集,一个是对于网页的内容特征标记的,有6414个样本,一个是对于网页的链接特征标记的,有7473个样本,我想实现把数据集分成训练集和测试集用于生成和测试基分类器,但是在处理的过程中,不知道怎样才能把两个文件都用到数据挖掘的过程中去,而且对于选取训练集和测试集中,训练集和测试集的相对比较适合的比例是多少,求解答。

数据挖掘

魔法G莓莓 11 years, 8 months ago

通常机器学习过程中会使用十倍交叉验证来测试模型,保证生成模型不会过耦合.
即将数据随机分成十份,选取其中一份用来做测试集,剩下九份用来做训练集.进行10次测试,保证每份数据都会被作为测试集测试一次.然后取十次的均值作为评价指标.
有时候也会采用五倍或是三倍,一般情况下,选十倍即可.

开放注册啦 answered 11 years, 8 months ago

Your Answer