您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 1浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

python爬虫:多媒体文件抽取

嗨学编程 发布时间:2019-06-11 15:17:10 ,浏览量:1

目的

批量下载网页图片

导入库

urllib中的request中的urlretrieve方法,可以下载图片

lxml用于解析网页

requests用于获取网站信息

import urllib

from lxml import etree

import requests

定义回调函数

回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。

在使用urllib中的request中的urlretrieve方法时,加入的回调函数,会在每次数据块传递完毕时触发,传递参数,可作为下载进度使用。

获取图片地址

通过request获取图片地址后,通过xpath语法,对全局查找img标签,获取其src属性。即图片地址

下载

归并地址,命名文件路径和文件名,设定回调函数,完成下载。

i=0

for img_url in img_urls:

    urllib.request.urlretrieve('http:'+img_url,'img'+str(i)+'.jpg',schedule)

    i+=1

print('finish')

另外一组图片下载的完整代码

关注
打赏
1663681728
查看更多评论
立即登录/注册

微信扫码登录

0.0492s