您当前的位置: 首页 >  分类
  • 0浏览

    0关注

    2393博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)

一个处女座的程序猿 发布时间:2018-11-30 12:08:49 ,浏览量:0

ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤+分类模型设计)

 

 

 

目录

一、总体思路框架

二、特征工程详细步骤(特征分析与特征处理)

1、获取数据集,并确定新数据集的规模

2、确定数据集每个属性的类型

3、对数据集统计特征

4、利用python工具包输出

5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析

6、属性之间关系的关系SP可视化

7、特殊属性和标签的关系SP可视化

8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度

9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性

三、测试该数据集上度量分类器性能

T1、OLS构建分类器

T2、RiR构建分类器+AUC度量分离器性能

 

 

一、总体思路框架

二、特征工程详细步骤(特征分析与特征处理) 1、获取数据集,并确定新数据集的规模

2、确定数据集每个属性的类型

 

3、对数据集统计特征
Mean = 	0.053892307692307684		Standard Deviation = 	 0.04641598322260027

Boundaries for 4 Equal Percentiles 
[0.0058, 0.024375, 0.04405, 0.0645, 0.4264]
 
Boundaries for 10 Equal Percentiles 
[0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]
 
Unique Label Values 
{'M', 'R'}

Counts for Each Value of Categorical Label 
['M', 'R']
[111, 97]
4、利用python工具包输出

(1)、分位图查找异常点

(2)、输出头数据和尾数据

(3)、输出统计信息

5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析

6、属性之间关系的关系SP可视化

7、特殊属性和标签的关系SP可视化

8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度

(1)、如图分别计算的是2&3、2&21两个相关度数值

分别计算第2&3、2&21个属性参数相关度,发现2&3之间相关度比2&21高!

9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性

三、测试该数据集上度量分类器性能 T1、OLS构建分类器

1、输出结果

2、ROC、AUC可视化分析

T2、RiR构建分类器+AUC度量分离器性能

 

 

 

关注
打赏
1664196048
查看更多评论
立即登录/注册

微信扫码登录

0.0446s