数据质量分析是数据探索阶段重要一环, 数据不是完美的, 往往存在缺少数据、异常数据,不一致数据、噪声数据等。没有可信的数据,再好的模型性能都不太可能好, “垃圾进,垃圾出”。
数据分析方面的分析, 主要包括以下几个方面- 缺失值
- 异常值
- 不一致的数据
- 错误数据
import pandas as pd
import matplotlib.pyplot as plt
def test1():
df = pd.read_csv("C:\\Users\\12285\\Desktop\\a.csv", header=0)
print(df.count()) # 统计非空值
print(df.describe()) # 统计信息: 记录数,平均值,方差,最小值,分位数, 最大值
plt.figure()
# 画箱型图
bp = df.boxplot(return_type='dict')
# fliers 为异常值的标签
x = bp['fliers'][0].get_xdata()
y = bp['fliers'][0].get_ydata()
y.sort()
# 用annotate添加注释
for i in range(len(x)):
plt.annotate(y[i], xy = (x[i], y[i]), xytext = (x[i] + 0.1 - 0.8 / (y[i] - y[i - 1]), y[i]))
plt.show()
df.count() 计算空值
date 12
emc 12
fsn 12
dtype: int64
df.describe() 计算统计信息
fsn
count 12.000000
mean 2153.333333
std 3908.253861
min 0.000000
25% 3.750000
50% 16.500000
75% 2239.000000
max 11608.000000