Selenium 简介
网站复杂度增加,爬虫编写的方式也会随着增加。使用Selenium 可以通过简单的方式抓取复杂的网站页面,得到想要的信息。
Selenium 是操作浏览器进行自动化,例如自动化访问网站,点击按钮,进行信息采集,对比直接使用bs4 抓取信息,Selenium的抓取速度是有很大缺陷,但是如果抓取页面不多,页面复杂时,使用Selenium是个不错的选择。
本文将会使用Selenium 进行一些简单的抓取。
Selenium 使用注意
在使用 Selenium前需要安装 Selenium,使用pip命令,安装如下:
pip install selenium
安装完成 Selenium 还需要下载一个驱动。
谷歌浏览器驱动:驱动版本需要对应浏览器版本,不同的浏览器使用对应不同版本的驱动。
作者的环境说明如下:
·操作系统:Windows7 SP1 64
· python 版本:3.7.7
· 浏览器:谷歌浏览器
· 浏览器版本: 80.0.3987 (64 位)
下载好驱动后,必须把驱动给配置到系统环境,或者丢到你python的根目录下。
正式开始
首先在代码中引入 selenium
from selenium import webdriver
可能有些读者没有把驱动配置到环境中,接下来我们可以指定驱动的位置:
driver = webdriver.Chrome(executable_path=r'F:\python\dr\chromedriver_win32\chromedriver.exe')
以上代码调用Chrome 方法并且配置驱动地址(??这里使用 executable_path 指定驱动地址??)为“F:\python\dr\chromedriver_win32\chromedriver.exe”,这时就可以指定了驱动位置,也可以不用配置到环境了。
这时运行一下代码,查看是否会打开一个浏览器。