数据质量分析是数据预处理的前提,是数据挖掘分析结论有效性和准确性的基础,其主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据主要值缺失值和异常值。本专场重点介绍了缺失值的判断、缺失值模式探索、缺失值处理及异常值判断的常用方法及R语言实践。
本场Chat包括以下内容:
- 缺失值的判断和模式识别。
- 缺失值处理:直接删除缺失值、缺失值填补、缺失值插补。
- 异常值判断的常用方法。
- 利用qcc质量控制图和箱线图识别异常值。
- 利用聚类分析甄别异常值。
阅读全文: http://gitbook.cn/gitchat/activity/58da7fda572d78ce2c73336f
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。