Python采集ppt素材模板 (多线程版本)
开发环境:- Python 3.8
- Pycharm
- requests >>> pip install requests
- re
- win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
- 在pycharm中点击Terminal(终端) 输入安装命令
-
失败一: pip 不是内部命令 解决方法: 设置环境变量
-
失败二: 出现大量报红 (read time out) 解决方法: 因为是网络链接超时, 需要切换镜像源 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:https://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学:https://pypi.hustunique.com/ 山东理工大学:https://pypi.sdutlinux.org/ 豆瓣:https://pypi.douban.com/simple/ 例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
-
失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入 解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好 或者你pycharm里面python解释器没有设置好
- 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
- 点击齿轮, 选择add
- 添加python安装路径
- 选择file(文件) >>> setting(设置) >>> Plugins(插件)
- 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
- 选择相应的插件点击 install(安装) 即可
- 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效
分析:
我们想要的数据内容, 可以从哪里得到… ppt模板 >>> 可以怎么去下载, 下载url在哪里获取 ppt标题可以从哪里
分析怎么去:
通过开发者工具进行抓包分析…
I. 找到ppt文件下载地址 url https://down.ypppt.com/uploads/soft/220216/1-220216193454.zip II. 通过下载地址, 可以找到下载地址的来源 https://www.ypppt.com/p/d.php?aid=12774 III. 通过分析可以知道 想要所有PPT数据 获取所有ppt ID IV. https://www.ypppt.com/moban/ 这个列表页面 就有我们想要的ppt 的ID参数
如果说你采集的数据, url地址变化是因为 ID >>> 去列表页面查找…
二. 代码实现步骤:爬虫四个基本步骤 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
- 发送请求, 对于 ppt 列表页面发送请求
- 获取数据, 获取服务器返回response响应数据
- 解析数据, 提取我们想要内容: ID 标题
- 发送请求, 把ID 传入 https://www.ypppt.com/p/d.php?aid=12774 发送请求
- 获取数据, 获取服务器返回response响应数据
- 解析数据, 提取下载地址
- 保存数据
# 导入格式化输出模块
import pprint
# 导入数据请求模块
import requests # 导入模块没有使用, 会是一个灰色待机状态... pip install requests
# 导入正则表达式模块
import re # 内置模块 不需要安装
# 导入多线程模块
import concurrent.futures
# for page in range(2, 152): # 2,3,4,5,6,7,8,9,10
# # 1. 发送请求, 对于 ppt 列表页面发送请求 开源的游戏辅助代码 连连看...模拟点击 识别图片模拟点击
# print(f'===================正在爬取第{page}页的数据内容====================')
# url = f'https://www.ypppt.com/moban/list-{page}.html/' # 确定url
# """
# python爬虫: 用Python代码 模拟浏览器对于服务器发送请求
# user-agent: 浏览器身份标识(UA)
# token
# """
# headers = {
# 'cookie': '__yjs_duid=1_7126cde6bdcbda7ed98e50e262bb25f61645075852061; __gads=ID=4ceb58ec03cc08b5-22301745a9d000e4:T=1645075852:RT=1645075852:S=ALNI_MZO0GflNGEwhTH22iGuErL_KgyU8g; Hm_lvt_45db753385e6d769706e10062e3d6453=1645075852,1645098583; yjs_js_security_passport=d81a42d01a2b0264b06bf63cc16c042c8bca05b5_1645106174_js; Hm_lpvt_45db753385e6d769706e10062e3d6453=1645106191',
# 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
# }
# dit = get_proxy()
# response = requests.get(url=url, headers=headers, proxies=dit)
# # response.encoding = response.apparent_encoding # 自动识别编码
# response.encoding = 'utf-8'
# """
# 对象类型 响应对象
# 状态码:
# 200: 请求成功
# 503: 服务器问题
# 300 重定向 跳转意思
# """
# # 2. 获取数据, 获取服务器返回response响应数据
# # print(response.text) # html字符串数据
# # 3. 解析数据, 提取我们想要内容: ID 标题
# """
# 正则表达式 是可以直接对于字符串数据 进行解析提取....
# 解析数据: 返回空列表 >>> 表示我们没有提取到内容
# 1. 服务器没有给我们返回数据
# 2. 解析方法(解析语法) 写错了
# .*? 正则表达式元字符 匹配规则 表示可以匹配任意字符(除了\n以外) re.S \n也可以匹配
# response.text 获取响应体文本数据
# response.json() 获取响应体json字典数据
# response.content 获取响应体二进制数据
# """
# ppt_info = re.findall('(.*?)', response.text)
# # [('/article/2022/12774.html', '质感纹理工作总结汇报PPT模板')]'
# for link, title in ppt_info:
# """
# # split()字符串分割 >>> /article/2022/12774.html
# 列表索引位置, 从左往右数 从0开始计数的 0 1 2 3 4
# 从右往左数 从-1 -2 -3 -4 计数的
# format 字符串格式化的方法 {} 占位符
# """
# ppt_id = link.split('/')[-1].split('.')[0]
# # 4. 发送请求, 把ID 传入 https://www.ypppt.com/p/d.php?aid=12774 发送请求
# link_url = f'https://www.ypppt.com/p/d.php?aid={ppt_id}'
# # link_url = 'https://www.ypppt.com/p/d.php?aid={}'.format(ppt_id)
# # link_url = 'https://www.ypppt.com/p/d.php?aid=' + ppt_id
# response_1 = requests.get(url=link_url, headers=headers, proxies=dit)
# # 5. 获取数据, 获取服务器返回response响应数据
# # 6. 提取下载地址 正则提取出来数据返回列表
# download_url = re.findall('下载地址1 ', response_1.text)[0]
# # 7. 保存数据 保存压缩包 图片/音频/视频/特定格式的文件 都是以二进制数据进行保存
# ppt_content = requests.get(url=download_url, headers=headers, proxies=dit).content # 获取二进制数据内容
# # w 写入 b 二进制模式 wb 以二进制模式写入数据
# with open('素材\\' + title + '.zip', mode='wb') as f:
# f.write(ppt_content)
# print(download_url, title)
def get_proxy():
url = 'http://tiqu.pyhttp.taolop.com/getip?count=1&neek=15790&type=2&yys=0&port=1&sb=&mr=2&sep=0&time=4'
json_data = requests.get(url).json()
ip_data = 'http://' + str(json_data['data'][0]["ip"]) + ':' + str(json_data['data'][0]["port"])
dit = {
'http': ip_data,
'https': ip_data
}
return dit
def get_response(html_url):
"""发送请求"""
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}
dit = get_proxy()
response = requests.get(url=html_url, headers=headers, proxies=dit)
response.encoding = 'utf-8'
return response
def get_ppt_info(html_url):
"""获取ppt id 以及 标题"""
response = get_response(html_url)
data_list = re.findall('(.*?)', response.text)
return data_list
def save(link, title):
"""保存数据"""
response_1 = get_response(link)
download_url = re.findall('下载地址1 ', response_1.text)[0]
ppt_content = get_response(download_url).content
with open('素材\\' + title + '.zip', mode='wb') as f:
f.write(ppt_content)
print('保存成功: ', title)
def main(html_url):
"""主函数, 把所有的功能函数整合到一起"""
data_list = get_ppt_info(html_url)
for link, title in data_list:
ppt_id = link.split('/')[-1][:-5]
ppt_url = f'https://www.ypppt.com/p/d.php?aid={ppt_id}'
save(ppt_url, title)
if __name__ == '__main__':
exe = concurrent.futures.ThreadPoolExecutor(max_workers=5)
for page in range(2, 11): # 2,3,4,5,6,7,8,9,10
url = f'https://www.ypppt.com/moban/list-{page}.html/' # 确定url
exe.submit(main, url)
exe.shutdown()