当我们的训练数据的类别分布严重偏斜时,我们面临的分类不平衡问题。不平衡可能影响我们的机器学习算法的一种方式是当我们的算法完全忽略少数类时。这是一个问题的原因是因为少数类通常是我们最感兴趣的类。例如,在构建分类器以根据各种观察对欺诈性和非欺诈性交易进行分类时,数据可能有更多的非欺诈性交易。如果我们的欺诈交易数量与非欺诈交易数量相等,那将是非常令人担忧的。
文章目录
-
- 一、什么是不平衡分类
- 二、过采样和欠采样
- 三、Python实践
-
- 3.1 导入相关库
- 3.2 创建不平衡数据
- 3.3 数据拆分
- 3.4 确定分类模型的性能指标
- 3.5 直接训练和评估
- 3.6 不平衡数据集的随机过采样
- 3.7 不平衡数据集的 SMOTE 过采样
- 3.8 不平衡数据集的随机欠采样
- 3.9 使用 NearMiss 对不平衡数据集进行欠采样
- 3.10 组合采样