前言
文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者: TinaLY
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
python免费学习资料以及群交流解答点击即可加入
网上很多爬取教程,但是一般存在两个问题:
一是:自己调试会遇到很多bug,一般无法直接使用,对于调试代码有难度的来说比较抓狂;
二是:由于网页数据的格式不是完全规整的,寻找的代码块可能会遇到问题,所以需要设置一个异常抛出机制,以免前面爬取的数据没来得及保存,耗时耗力。
这次是根据自己的经验,提供小批量爬取的数据,能拆开的代码尽量拆开。
- 用的爬取结构,主要是selenium,网页会连续不断地打开。
- 以济南市为例,为了小规模测试,针对单个行政区分别获取,代码熟悉之后可将区改为循环。
关键包:
from selenium import webdriver
from urllib import request,parse
from selenium.common.exceptions import NoSuchElementException
定义参数(前三行是高德API获取坐标用得到,第四行是爬取的城市,一般网页链接接中会有):
amap_web_key = '你的key'
poi_search_url = "http://restapi.amap.com/v3/place/text"
poi_boundary_url = "https://ditu.amap.com/detail/get/detail"
city ='jinan'
关键代码:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36'}
driver1 = webdriver.Chrome()
pageid = 1
while(pageid
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?