背景
纯用Python+Openfile方法流式保存大量资源太慢,而且往往存在中断问题,所以我优化了一下高效爬虫在设计上的流程。
具体设计- 老样子,如果需要互动拿到理想资源的展示,那么仍然需要主动Selenium或Request直到自己想要的内容从服务器那头暴露出来。如果打开页面直接就包含了自己想要爬取的内容,不需要JS互动,那么可以略过这一步。
- 将具备自己想要爬取信息的静态页面用Beautiful Soup高效解析获取,循环获取全量的下载链接。
- 将全量获取的下载链接再扔给IDM进行批量下载。
简单来讲,就是让专业的包和工具做各自最专业的事情。组合成最高效的流程。