您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 0浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

适合初学者的Python爬取链家网教程

嗨学编程 发布时间:2019-11-23 14:41:14 ,浏览量:0

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: TinaLY

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

网上很多爬取教程,但是一般存在两个问题:

一是:自己调试会遇到很多bug,一般无法直接使用,对于调试代码有难度的来说比较抓狂;

二是:由于网页数据的格式不是完全规整的,寻找的代码块可能会遇到问题,所以需要设置一个异常抛出机制,以免前面爬取的数据没来得及保存,耗时耗力。

这次是根据自己的经验,提供小批量爬取的数据,能拆开的代码尽量拆开。

  • 用的爬取结构,主要是selenium,网页会连续不断地打开。
  • 以济南市为例,为了小规模测试,针对单个行政区分别获取,代码熟悉之后可将区改为循环。
代码如下:

关键包:

from selenium import webdriver
from urllib import request,parse
from selenium.common.exceptions import NoSuchElementException

定义参数(前三行是高德API获取坐标用得到,第四行是爬取的城市,一般网页链接接中会有):

amap_web_key = '你的key'
poi_search_url = "http://restapi.amap.com/v3/place/text"
poi_boundary_url = "https://ditu.amap.com/detail/get/detail"
city ='jinan'

关键代码:

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36'}
driver1 = webdriver.Chrome()
pageid = 1
while(pageid             
关注
打赏
1663681728
查看更多评论
0.0847s