您当前的位置: 首页 > 

宝哥大数据

暂无认证

  • 1浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

数据质量分析

宝哥大数据 发布时间:2019-05-25 10:32:02 ,浏览量:1

数据质量分析是数据探索阶段重要一环, 数据不是完美的, 往往存在缺少数据、异常数据,不一致数据、噪声数据等。没有可信的数据,再好的模型性能都不太可能好, “垃圾进,垃圾出”。

数据分析方面的分析, 主要包括以下几个方面
  • 缺失值
  • 异常值
  • 不一致的数据
  • 错误数据
一、统计数据情况 二、通过箱型图观察数据的异常情况
import pandas as pd
import matplotlib.pyplot as plt

def test1():
    df = pd.read_csv("C:\\Users\\12285\\Desktop\\a.csv", header=0)
    print(df.count())       # 统计非空值
    print(df.describe())    # 统计信息: 记录数,平均值,方差,最小值,分位数, 最大值

    plt.figure()
    # 画箱型图
    bp = df.boxplot(return_type='dict')

    # fliers 为异常值的标签
    x = bp['fliers'][0].get_xdata()
    y = bp['fliers'][0].get_ydata()
    y.sort()

    # 用annotate添加注释
    for i in range(len(x)):
        plt.annotate(y[i], xy = (x[i], y[i]), xytext = (x[i] + 0.1 - 0.8 / (y[i] - y[i - 1]), y[i]))

    plt.show()

df.count() 计算空值
date    12
emc     12
fsn     12
dtype: int64

df.describe() 计算统计信息
               fsn 
count     12.000000
mean    2153.333333
std     3908.253861
min        0.000000
25%        3.750000
50%       16.500000
75%     2239.000000
max    11608.000000

在这里插入图片描述

关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0389s