网站:http://www.win4000.com(图片的质量还不错)
基本环境配置:
- Python版本:3.6
相关模块:
import re
import requests
import time
from multiprocessing import Pool
from lxml import etree
import os
import uuid
####完整代码:
import re
import requests
import time
from multiprocessing import Pool
from lxml import etree
import os
import uuid
'''
遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!
'''
# 第一个主页面地址
rooturl = 'http://www.win4000.com/zt/huyan_'
# http://www.win4000.com/zt/fengjing.html
# 模拟浏览器请求头
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
" AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/70.0.3538.110 Safari/537.36"
}
count = 0
# 图片集url
def graph_set(rooturl):
set = []
title = []
results = requests.get(rooturl, headers=header)
text = results.text
res = re.findall('.*href="(.*)" alt="',text)
selector = etree.HTML(text)
tt = selector.xpath('//div[contains(@class,"tab_tj")]//li//p')
for url in res:
set.append(url)
for tit in tt[:24]:
title.append(tit.text)
return title,set
# 图片页面解析原图集合
def parser(tup):
response = requests.get(tup[0],headers=header)
text = response.text
originset = re.findall('href="(.*)" class=.*查看原图',text)
time.sleep(1)
oringin(originset.pop(),tup[1])
# 图集原图集合
def oringin(page,name):
print(name+'正在爬取')
dir = 'G:\python 资源\python project\美桌网壁纸爬取\护眼图片\\'
oringin = []
response = requests.get(page,headers=header)
res = re.findall('li.*href="(.*)".*>
关注
打赏
热门博文
- Python骚操作,实现驾考自动答题,这就直接满分了?
- 用Python自动实现图表可视化操作,提高工作效率,又能有更多的时间摸鱼了~
- Python:用tkinter制做一个音乐下载小软件
- Python丨小学妹喜欢看漫画,于是我写了四十行代码获取了它所有漫画
- 女同桌找我要表情包,还好我会Python,分分钟给她下载几十个G...
- 为了防止这上面的文章被封,我连夜用Python获取了它所有内容,真香~
- 这个Python读取文件的方法,堪称天花板级别...
- Python做一个通过输入bv号就能下载视频的工具,评论和弹幕也不放过
- Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
- Python:50行代码实现下载小说,图片章节可自动识别转文字保存...