您当前的位置: 首页 >  爬虫

每日出拳老爷子

暂无认证

  • 3浏览

    0关注

    135博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【爬虫】批量下载资源的优化做法

每日出拳老爷子 发布时间:2022-03-24 21:37:30 ,浏览量:3

背景

纯用Python+Openfile方法流式保存大量资源太慢,而且往往存在中断问题,所以我优化了一下高效爬虫在设计上的流程。

具体设计
  1. 老样子,如果需要互动拿到理想资源的展示,那么仍然需要主动Selenium或Request直到自己想要的内容从服务器那头暴露出来。如果打开页面直接就包含了自己想要爬取的内容,不需要JS互动,那么可以略过这一步。
  2. 将具备自己想要爬取信息的静态页面用Beautiful Soup高效解析获取,循环获取全量的下载链接。
  3. 将全量获取的下载链接再扔给IDM进行批量下载。
总结

简单来讲,就是让专业的包和工具做各自最专业的事情。组合成最高效的流程。

关注
打赏
1657016083
查看更多评论
立即登录/注册

微信扫码登录

0.0368s