您当前的位置: 首页 >  selenium
  • 0浏览

    0关注

    265博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Selenium使用简单的方式抓取复杂的页面信息

可可爱爱的程序员 发布时间:2022-03-04 22:43:52 ,浏览量:0

Selenium 简介

  网站复杂度增加,爬虫编写的方式也会随着增加。使用Selenium 可以通过简单的方式抓取复杂的网站页面,得到想要的信息。

  Selenium 是操作浏览器进行自动化,例如自动化访问网站,点击按钮,进行信息采集,对比直接使用bs4 抓取信息,Selenium的抓取速度是有很大缺陷,但是如果抓取页面不多,页面复杂时,使用Selenium是个不错的选择。

  本文将会使用Selenium 进行一些简单的抓取。

  Selenium 使用注意

  在使用 Selenium前需要安装 Selenium,使用pip命令,安装如下:

  pip install selenium

  安装完成 Selenium 还需要下载一个驱动。

  谷歌浏览器驱动:驱动版本需要对应浏览器版本,不同的浏览器使用对应不同版本的驱动。

  作者的环境说明如下:

  ·操作系统:Windows7 SP1 64

  · python 版本:3.7.7

  · 浏览器:谷歌浏览器

  · 浏览器版本: 80.0.3987 (64 位)

  下载好驱动后,必须把驱动给配置到系统环境,或者丢到你python的根目录下。

  正式开始

  首先在代码中引入 selenium

  from selenium import webdriver

  可能有些读者没有把驱动配置到环境中,接下来我们可以指定驱动的位置:

  driver = webdriver.Chrome(executable_path=r'F:\python\dr\chromedriver_win32\chromedriver.exe')

  以上代码调用Chrome 方法并且配置驱动地址(??这里使用 executable_path 指定驱动地址??)为“F:\python\dr\chromedriver_win32\chromedriver.exe”,这时就可以指定了驱动位置,也可以不用配置到环境了。

  这时运行一下代码,查看是否会打开一个浏览器。

关注
打赏
1656598245
查看更多评论
立即登录/注册

微信扫码登录

0.0760s