1. 数据清洗
示例代码:
import pandas as pd
# 读取数据
app = pd.read_csv('../data/excel_data/applestore.csv')
app.info()
#发现了unname 0这个奇怪的变量,需要进行清理
app.drop('Unnamed: 0', axis=1, inplace=True)
#drop默认是对行
#inplace表示直接替换掉原有数据
#同样可以用位置来举
#app.drop(app.columns[0],axis=1,inplace=True)
app.head()
# 考虑将sizebytes变成mb,新增数据
app['size_mb'] = app['size_bytes'] / (1024 * 1024.0)
app.size_mb.describe()
# 根据价格新增标签
app['paid'] = app['price'].apply(lambda x: 1 if x > 0 else 0)
#lambda阐述规则,X为price,为paid赋值,即当price>0,paid为1,其他情况下,paid为0
app.paid.describe()
示例代码:
#value_counts (price,prime_genre)
#value_Coutn只能对应series,不能对整个dataframe做操作
app.price.value_counts()
# 价格>50的比较少
#数据的快速分组
bins = [0,2,10,300]
labels = [ '
关注
打赏