ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法、自助采样法)讲解及其代码
导读:将整个数据集D划分为三个互斥的集合{训练集、验证集和测试集}。在对数据集进行划分时,目前最常用的思路,是要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如在分类任务中至少要保持样本的类别比例相似。因此通常使用分层采样(stratified sampling)划分数据以保留类别比例,比如带Stratified前缀的方法均可。
- 留1法/留p法:常用在数据集样本数量很大时,但也比较耗算力。比如采用2:1:1或者4:1:1的比例进行划分。如果数据集样本量较少时,采用这种划分方法,得到的模型评估结果往往不够稳定。
- k折交叉验证法:交叉验证充分的利用了数据集中的数据,因此当样本数量较小时,可以采用这种方法划分数据集。
- 自助采样法Bootstrap Resampling:适用于小的、难以划分的数据集,不可避免的改变原始分布(带来偏差)
目录