您当前的位置: 首页 >  机器学习

蔚1

暂无认证

  • 0浏览

    0关注

    4753博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习数据预处理方法与技巧系统讲解

蔚1 发布时间:2018-04-12 10:43:56 ,浏览量:0

数据挖掘项目中最重要的事,并非算法模型的选择与调参,而是数据的预处理。在真实数据中(包括 kaggle 等比赛),通常存在大量的缺失值和噪音,这些对算法的效果有极大影响。不仅如此,特征的量级差异,也会影响预测算法的效果。如 kNN 算法,假设数据点有两个特征 x1,x2,其中 x1 的量级为 x2 的 10 倍,判断距离时,由于距离变成了平方和,x1 的重要性就会是 x2 的 100 倍!再如:根据某房屋的数据集来预测客户购买房屋的可能,其特征包括房屋面积,价格,则可生成一个新特征:每平米价格 = 价格 / 房屋面积。

这个特征多么重要,大家也看的出来。然而,靠调参是做不到的,也没法做到这种效果,只有通过数据预处理进行特征生成才能够实现。然而,现在却没有人系统性地讲解这些技巧。

这次 Chat,就是来系统性地告诉你各种数据预处理的方法技巧。最后,会以 Python 来讲解一个数据预处理的例子。

阅读全文: http://gitbook.cn/gitchat/activity/5a49d7ac74a8045874dbe872

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

关注
打赏
1560489824
查看更多评论
立即登录/注册

微信扫码登录

0.0796s