对于数据挖掘中数据的选择集和测试集的分离
问题是这样,我有两个数据集,一个是对于网页的内容特征标记的,有6414个样本,一个是对于网页的链接特征标记的,有7473个样本,我想实现把数据集分成训练集和测试集用于生成和测试基分类器,但是在处理的过程中,不知道怎样才能把两个文件都用到数据挖掘的过程中去,而且对于选取训练集和测试集中,训练集和测试集的相对比较适合的比例是多少,求解答。
魔法G莓莓
11 years, 8 months ago