您当前的位置: 首页 >  大数据
  • 0浏览

    0关注

    2393博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法、自助采样法)讲解及其代码

一个处女座的程序猿 发布时间:2020-09-07 18:59:03 ,浏览量:0

ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法、自助采样法)讲解及其代码

 

 

导读:将整个数据集D划分为三个互斥的集合{训练集、验证集和测试集}。在对数据集进行划分时,目前最常用的思路,是要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如在分类任务中至少要保持样本的类别比例相似。因此通常使用分层采样(stratified sampling)划分数据以保留类别比例,比如带Stratified前缀的方法均可。

  • 留1法/留p法:常用在数据集样本数量很大时,但也比较耗算力。比如采用2:1:1或者4:1:1的比例进行划分。如果数据集样本量较少时,采用这种划分方法,得到的模型评估结果往往不够稳定。
  • k折交叉验证法:交叉验证充分的利用了数据集中的数据,因此当样本数量较小时,可以采用这种方法划分数据集。
  • 自助采样法Bootstrap Resampling:适用于小的、难以划分的数据集,不可避免的改变原始分布(带来偏差)

 

 

 

目录

关注
打赏
1664196048
查看更多评论
立即登录/注册

微信扫码登录

0.0463s