最近需要从csv中读取数据, Csv文件较大时,运行速度极慢。
我现在读取的是这个csv文件,一只股票的数据: 大约在170MB的大小。
首先把他转化为h5格式:
a = pd.read_csv('SZ300133.csv')
a.to_hdf('sz300133.h5', 'data)
注意, to_hdf
的第一个参数就是你保存的文件路径, 而第二个参数是你设置的key, 这是因为h5里可以同时保存多个dataframe,后面可以根据key来索引。 但这里我们暂时不需要, 我就随便取了个’data’。
接下来, 可以在console测验下速度:
%timeit pd.read_csv('SZ300133.csv')
%timeit pd.read_csv('sz300133.h5')
结果如图: 读取速度增加了近20倍! 存储空间上也节约了特别多:
如果需要频繁读取excel类文件的话,拥抱hdf吧!