您当前的位置: 首页 >  机器学习

川川菜鸟

暂无认证

  • 3浏览

    0关注

    969博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习(三十):过采样和欠采样技术

川川菜鸟 发布时间:2022-09-24 21:24:33 ,浏览量:3

当我们的训练数据的类别分布严重偏斜时,我们面临的分类不平衡问题。不平衡可能影响我们的机器学习算法的一种方式是当我们的算法完全忽略少数类时。这是一个问题的原因是因为少数类通常是我们最感兴趣的类。例如,在构建分类器以根据各种观察对欺诈性和非欺诈性交易进行分类时,数据可能有更多的非欺诈性交易。如果我们的欺诈交易数量与非欺诈交易数量相等,那将是非常令人担忧的。 在这里插入图片描述

文章目录
    • 一、什么是不平衡分类
    • 二、过采样和欠采样
    • 三、Python实践
      • 3.1 导入相关库
      • 3.2 创建不平衡数据
      • 3.3 数据拆分
      • 3.4 确定分类模型的性能指标
      • 3.5 直接训练和评估
      • 3.6 不平衡数据集的随机过采样
      • 3.7 不平衡数据集的 SMOTE 过采样
      • 3.8 不平衡数据集的随机欠采样
      • 3.9 使用 NearMiss 对不平衡数据集进行欠采样
      • 3.10 组合采样
关注
打赏
1665165634
查看更多评论
立即登录/注册

微信扫码登录

0.5902s