前言
文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者: TinaLY
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
python免费学习资料以及群交流解答点击即可加入
网上很多爬取教程,但是一般存在两个问题:
一是:自己调试会遇到很多bug,一般无法直接使用,对于调试代码有难度的来说比较抓狂;
二是:由于网页数据的格式不是完全规整的,寻找的代码块可能会遇到问题,所以需要设置一个异常抛出机制,以免前面爬取的数据没来得及保存,耗时耗力。
这次是根据自己的经验,提供小批量爬取的数据,能拆开的代码尽量拆开。
- 用的爬取结构,主要是selenium,网页会连续不断地打开。
- 以济南市为例,为了小规模测试,针对单个行政区分别获取,代码熟悉之后可将区改为循环。
关键包:
from selenium import webdriver
from urllib import request,parse
from selenium.common.exceptions import NoSuchElementException
定义参数(前三行是高德API获取坐标用得到,第四行是爬取的城市,一般网页链接接中会有):
amap_web_key = '你的key'
poi_search_url = "http://restapi.amap.com/v3/place/text"
poi_boundary_url = "https://ditu.amap.com/detail/get/detail"
city ='jinan'
关键代码:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36'}
driver1 = webdriver.Chrome()
pageid = 1
while(pageid
关注
打赏
热门博文
- Python骚操作,实现驾考自动答题,这就直接满分了?
- 用Python自动实现图表可视化操作,提高工作效率,又能有更多的时间摸鱼了~
- Python:用tkinter制做一个音乐下载小软件
- Python丨小学妹喜欢看漫画,于是我写了四十行代码获取了它所有漫画
- 女同桌找我要表情包,还好我会Python,分分钟给她下载几十个G...
- 为了防止这上面的文章被封,我连夜用Python获取了它所有内容,真香~
- 这个Python读取文件的方法,堪称天花板级别...
- Python做一个通过输入bv号就能下载视频的工具,评论和弹幕也不放过
- Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
- Python:50行代码实现下载小说,图片章节可自动识别转文字保存...