您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 1浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

python爬取百度贴吧每个帖子里面的图片

嗨学编程 发布时间:2019-06-24 16:00:32 ,浏览量:1

现在我们用正则来做一个简单的爬虫,我们尝试爬取某个百度贴吧里面的所有帖子,并且将这个帖子里首页每个楼层发布的图片下载到本地。

分析:以美女吧为例

  第一页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=0

  第二页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=50

  第三页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=100

  ……

可以发现,url地址中pn及其前面的部分是相同的,改变的只是pn后面的值

不难发现,每页中共有50个帖子,所有pn的值是以每页50的值递增。

则第page页的pn值为:(page - 1) * 50

而kw=%E7%BE%8E%E5%A5%B3为urllib.parse.urlencode{"kw":"美女"}

关注
打赏
1663681728
查看更多评论
立即登录/注册

微信扫码登录

0.0494s