Python采集ppt素材模板 (多线程版本)，答辩、演讲再也不怕没有好用的PPT模板了（含完整源代码）

魔王不会哭发布时间：2022-02-22 15:57:22 ，浏览量：5

本次目的:

Python采集ppt素材模板 (多线程版本)

开发环境:

Python 3.8
Pycharm

模块使用:

requests >>> pip install requests
re

模块安装问题: 如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

安装失败原因:

失败一: pip 不是内部命令解决方法: 设置环境变量
失败二: 出现大量报红 (read time out) 解决方法: 因为是网络链接超时, 需要切换镜像源清华：https://pypi.tuna.tsinghua.edu.cn/simple 阿里云：https://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学：https://pypi.hustunique.com/ 山东理工大学：https://pypi.sdutlinux.org/ 豆瓣：https://pypi.douban.com/simple/ 例如：pip3 install -i https://pypi.doubanio.com/simple/ 模块名
失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好或者你pycharm里面python解释器没有设置好

如何配置pycharm里面的python解释器?

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
点击齿轮, 选择add
添加python安装路径

pycharm如何安装插件?

选择file(文件) >>> setting(设置) >>> Plugins(插件)
点击 Marketplace 输入想要安装的插件名字比如:翻译插件输入 translation / 汉化插件输入 Chinese
选择相应的插件点击 install(安装) 即可
安装成功之后是会弹出重启pycharm的选项点击确定, 重启即可生效

一. 数据来源分析

分析:

我们想要的数据内容, 可以从哪里得到… ppt模板 >>> 可以怎么去下载, 下载url在哪里获取 ppt标题可以从哪里

分析怎么去:

通过开发者工具进行抓包分析…

I. 找到ppt文件下载地址 url https://down.ypppt.com/uploads/soft/220216/1-220216193454.zip II. 通过下载地址, 可以找到下载地址的来源 https://www.ypppt.com/p/d.php?aid=12774 III. 通过分析可以知道想要所有PPT数据获取所有ppt ID IV. https://www.ypppt.com/moban/ 这个列表页面就有我们想要的ppt 的ID参数

如果说你采集的数据, url地址变化是因为 ID >>> 去列表页面查找…

二. 代码实现步骤:

爬虫四个基本步骤发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据

发送请求, 对于 ppt 列表页面发送请求
获取数据, 获取服务器返回response响应数据
解析数据, 提取我们想要内容: ID 标题
发送请求, 把ID 传入 https://www.ypppt.com/p/d.php?aid=12774 发送请求
获取数据, 获取服务器返回response响应数据
解析数据, 提取下载地址
保存数据

导入模块

# 导入格式化输出模块
import pprint
# 导入数据请求模块
import requests  # 导入模块没有使用, 会是一个灰色待机状态...  pip install requests
# 导入正则表达式模块
import re  # 内置模块 不需要安装
# 导入多线程模块
import concurrent.futures

# for page in range(2, 152):  # 2,3,4,5,6,7,8,9,10
#     # 1. 发送请求, 对于 ppt 列表页面发送请求 开源的游戏辅助代码 连连看...模拟点击 识别图片模拟点击
#     print(f'===================正在爬取第{page}页的数据内容====================')
#     url = f'https://www.ypppt.com/moban/list-{page}.html/' # 确定url
#     """
#     python爬虫: 用Python代码 模拟浏览器对于服务器发送请求
#     user-agent: 浏览器身份标识（UA）
#     token
#     """
#     headers = {
#         'cookie': '__yjs_duid=1_7126cde6bdcbda7ed98e50e262bb25f61645075852061; __gads=ID=4ceb58ec03cc08b5-22301745a9d000e4:T=1645075852:RT=1645075852:S=ALNI_MZO0GflNGEwhTH22iGuErL_KgyU8g; Hm_lvt_45db753385e6d769706e10062e3d6453=1645075852,1645098583; yjs_js_security_passport=d81a42d01a2b0264b06bf63cc16c042c8bca05b5_1645106174_js; Hm_lpvt_45db753385e6d769706e10062e3d6453=1645106191',
#         'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
#     }
#     dit = get_proxy()
#     response = requests.get(url=url, headers=headers, proxies=dit)
#     # response.encoding = response.apparent_encoding   # 自动识别编码
#     response.encoding = 'utf-8'
#     """
#       对象类型 响应对象
#     状态码:
#         200: 请求成功
#         503: 服务器问题
#         300 重定向 跳转意思
#     """
#     # 2. 获取数据, 获取服务器返回response响应数据
#     # print(response.text)  # html字符串数据
#     # 3. 解析数据, 提取我们想要内容: ID 标题
#     """
#     正则表达式 是可以直接对于字符串数据 进行解析提取....
#         解析数据: 返回空列表 >>> 表示我们没有提取到内容
#             1. 服务器没有给我们返回数据
#             2. 解析方法(解析语法) 写错了
#     .*? 正则表达式元字符 匹配规则  表示可以匹配任意字符(除了\n以外)  re.S \n也可以匹配
#     response.text 获取响应体文本数据
#     response.json() 获取响应体json字典数据
#     response.content 获取响应体二进制数据
#     """
#     ppt_info = re.findall('(.*?)', response.text)
#     # [('/article/2022/12774.html', '质感纹理工作总结汇报PPT模板')]'
#     for link, title in ppt_info:
#         """
#          # split()字符串分割  >>> /article/2022/12774.html
#         列表索引位置, 从左往右数 从0开始计数的 0 1 2 3 4
#             从右往左数 从-1 -2 -3 -4 计数的
#         format 字符串格式化的方法  {} 占位符
#         """
#         ppt_id = link.split('/')[-1].split('.')[0]
#         #  4. 发送请求, 把ID 传入 https://www.ypppt.com/p/d.php?aid=12774 发送请求
#         link_url = f'https://www.ypppt.com/p/d.php?aid={ppt_id}'
#         # link_url = 'https://www.ypppt.com/p/d.php?aid={}'.format(ppt_id)
#         # link_url = 'https://www.ypppt.com/p/d.php?aid=' + ppt_id
#         response_1 = requests.get(url=link_url, headers=headers, proxies=dit)
#         # 5. 获取数据, 获取服务器返回response响应数据
#         # 6. 提取下载地址 正则提取出来数据返回列表
#         download_url = re.findall('下载地址1', response_1.text)[0]
#         # 7. 保存数据 保存压缩包 图片/音频/视频/特定格式的文件 都是以二进制数据进行保存
#         ppt_content = requests.get(url=download_url, headers=headers, proxies=dit).content  # 获取二进制数据内容
#         # w 写入 b 二进制模式 wb 以二进制模式写入数据
#         with open('素材\\' + title + '.zip', mode='wb') as f:
#             f.write(ppt_content)
#         print(download_url, title)

def get_proxy():
    url = 'http://tiqu.pyhttp.taolop.com/getip?count=1&neek=15790&type=2&yys=0&port=1&sb=&mr=2&sep=0&time=4'
    json_data = requests.get(url).json()
    ip_data = 'http://' + str(json_data['data'][0]["ip"]) + ':' + str(json_data['data'][0]["port"])
    dit = {
        'http': ip_data,
        'https': ip_data
    }
    return dit


def get_response(html_url):
    """发送请求"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    dit = get_proxy()
    response = requests.get(url=html_url, headers=headers, proxies=dit)
    response.encoding = 'utf-8'
    return response


def get_ppt_info(html_url):
    """获取ppt id 以及 标题"""
    response = get_response(html_url)
    data_list = re.findall('(.*?)', response.text)
    return data_list


def save(link, title):
    """保存数据"""
    response_1 = get_response(link)
    download_url = re.findall('下载地址1', response_1.text)[0]
    ppt_content = get_response(download_url).content
    with open('素材\\' + title + '.zip', mode='wb') as f:
        f.write(ppt_content)
    print('保存成功: ', title)


def main(html_url):
    """主函数, 把所有的功能函数整合到一起"""
    data_list = get_ppt_info(html_url)
    for link, title in data_list:
        ppt_id = link.split('/')[-1][:-5]
        ppt_url = f'https://www.ypppt.com/p/d.php?aid={ppt_id}'
        save(ppt_url, title)


if __name__ == '__main__':
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=5)
    for page in range(2, 11):  # 2,3,4,5,6,7,8,9,10
        url = f'https://www.ypppt.com/moban/list-{page}.html/' # 确定url
        exe.submit(main, url)
    exe.shutdown()

关注

打赏

1688896170

查看更多评论

Python采集ppt素材模板 (多线程版本)，答辩、演讲再也不怕没有好用的PPT模板了（含完整源代码）

[ 申请 ]友情链接：