前段时间在公司做了个新项目,抓取了2个竞品网站的数据,通过伪造请求头、分析静态网页抓取的,JS 处理过的数据抓取起来费时费力。那个时候 Puppeteer(谷歌出品,必属精品)正好开源了,通过它,网页上可以看见的内容基本都可以抓取到,因此 Puppeteer 可以帮助我们轻松地爬取处理各种网页。
本场 Chat 需要您具备基础的 JavaScript 知识,最好是对 Node、NPM、ES6 等知识也有所了解。
本场 Chat 将主要通过两个例子:Puppeteer 抓取 Google 翻译结果、抓取微博用户微博截图来学习如何使用 Puppeteer 爬取网页信息。
主要内容有:
- Puppeteer 介绍以及安装。
- 如何项目标网页中注入自己的 JS?
- 实例爬取谷歌翻译结果。
- 实例爬取微博用户微博。
阅读全文: http://gitbook.cn/gitchat/activity/5aa23a4ec2ff6f2e12088e17
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。