我们知道,如今的 web 网页数据很多是动态加载的,普通的爬虫只是抓取静态的网页。实用性很差,因此,我们需要使用 Selenium 来爬取动态数据。评论区的数据,大多数情况下,都需要下拉刷新才能加载出来。而 Selenium 就能帮我们很好的爬取动态数据。
在本场 Chat 中我将介绍如何用基于 Selenium 的爬虫爬取 B 站评论,并介绍如何用 Firefox 浏览器的实用插件 FirePath 协助爬虫。主要内容包括:
- 对比静态爬虫与动态爬虫
- 什么是 Selenium?Selenium 工具的安装(基于 Firefox 浏览器)
- 介绍强大的 Xpath 定位工具——FirePath 协助爬虫
- 实例操作:爬取 B 站评论
- 拓展:介绍 Tar 浏览器,实现匿名 IP 爬虫,防止 IP 封禁
阅读全文: http://gitbook.cn/gitchat/activity/59ef0fbf54011222e227c720
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。