您当前的位置: 首页 >  pandas

B417科研笔记

暂无认证

  • 1浏览

    0关注

    154博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【pandas】放弃csv, 拥抱hdf (h5)

B417科研笔记 发布时间:2020-09-11 10:58:25 ,浏览量:1

最近需要从csv中读取数据, Csv文件较大时,运行速度极慢。

我现在读取的是这个csv文件,一只股票的数据: 大约在170MB的大小。

首先把他转化为h5格式:

a = pd.read_csv('SZ300133.csv')
a.to_hdf('sz300133.h5', 'data)

注意, to_hdf的第一个参数就是你保存的文件路径, 而第二个参数是你设置的key, 这是因为h5里可以同时保存多个dataframe,后面可以根据key来索引。 但这里我们暂时不需要, 我就随便取了个’data’。

接下来, 可以在console测验下速度:

%timeit pd.read_csv('SZ300133.csv')
%timeit pd.read_csv('sz300133.h5')

结果如图: 在这里插入图片描述 读取速度增加了近20倍! 存储空间上也节约了特别多: 在这里插入图片描述 如果需要频繁读取excel类文件的话,拥抱hdf吧!

关注
打赏
1649265742
查看更多评论
立即登录/注册

微信扫码登录

0.0359s