您当前的位置: 首页 >  Python

魔王不会哭

暂无认证

  • 5浏览

    0关注

    149博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Python采集ppt素材模板 (多线程版本),答辩、演讲再也不怕没有好用的PPT模板了(含完整源代码)

魔王不会哭 发布时间:2022-02-22 15:57:22 ,浏览量:5

本次目的:

Python采集ppt素材模板 (多线程版本)

开发环境:
  • Python 3.8
  • Pycharm
模块使用:
  • requests >>> pip install requests
  • re
模块安装问题: 如果安装python第三方模块:
  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
  2. 在pycharm中点击Terminal(终端) 输入安装命令
安装失败原因:
  • 失败一: pip 不是内部命令 解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out) 解决方法: 因为是网络链接超时, 需要切换镜像源 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:https://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学:https://pypi.hustunique.com/ 山东理工大学:https://pypi.sdutlinux.org/ 豆瓣:https://pypi.douban.com/simple/ 例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名

  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入 解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好 或者你pycharm里面python解释器没有设置好

如何配置pycharm里面的python解释器?
  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
  2. 点击齿轮, 选择add
  3. 添加python安装路径
pycharm如何安装插件?
  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)
  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
  3. 选择相应的插件点击 install(安装) 即可
  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效
一. 数据来源分析

分析:

我们想要的数据内容, 可以从哪里得到… ppt模板 >>> 可以怎么去下载, 下载url在哪里获取 ppt标题可以从哪里

分析怎么去:

通过开发者工具进行抓包分析…

I. 找到ppt文件下载地址 url https://down.ypppt.com/uploads/soft/220216/1-220216193454.zip II. 通过下载地址, 可以找到下载地址的来源 https://www.ypppt.com/p/d.php?aid=12774 III. 通过分析可以知道 想要所有PPT数据 获取所有ppt ID IV. https://www.ypppt.com/moban/ 这个列表页面 就有我们想要的ppt 的ID参数

如果说你采集的数据, url地址变化是因为 ID >>> 去列表页面查找…

二. 代码实现步骤:

爬虫四个基本步骤 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据

  1. 发送请求, 对于 ppt 列表页面发送请求
  2. 获取数据, 获取服务器返回response响应数据
  3. 解析数据, 提取我们想要内容: ID 标题
  4. 发送请求, 把ID 传入 https://www.ypppt.com/p/d.php?aid=12774 发送请求
  5. 获取数据, 获取服务器返回response响应数据
  6. 解析数据, 提取下载地址
  7. 保存数据
导入模块
# 导入格式化输出模块
import pprint
# 导入数据请求模块
import requests  # 导入模块没有使用, 会是一个灰色待机状态...  pip install requests
# 导入正则表达式模块
import re  # 内置模块 不需要安装
# 导入多线程模块
import concurrent.futures
# for page in range(2, 152):  # 2,3,4,5,6,7,8,9,10
#     # 1. 发送请求, 对于 ppt 列表页面发送请求 开源的游戏辅助代码 连连看...模拟点击 识别图片模拟点击
#     print(f'===================正在爬取第{page}页的数据内容====================')
#     url = f'https://www.ypppt.com/moban/list-{page}.html/' # 确定url
#     """
#     python爬虫: 用Python代码 模拟浏览器对于服务器发送请求
#     user-agent: 浏览器身份标识(UA)
#     token
#     """
#     headers = {
#         'cookie': '__yjs_duid=1_7126cde6bdcbda7ed98e50e262bb25f61645075852061; __gads=ID=4ceb58ec03cc08b5-22301745a9d000e4:T=1645075852:RT=1645075852:S=ALNI_MZO0GflNGEwhTH22iGuErL_KgyU8g; Hm_lvt_45db753385e6d769706e10062e3d6453=1645075852,1645098583; yjs_js_security_passport=d81a42d01a2b0264b06bf63cc16c042c8bca05b5_1645106174_js; Hm_lpvt_45db753385e6d769706e10062e3d6453=1645106191',
#         'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
#     }
#     dit = get_proxy()
#     response = requests.get(url=url, headers=headers, proxies=dit)
#     # response.encoding = response.apparent_encoding   # 自动识别编码
#     response.encoding = 'utf-8'
#     """
#       对象类型 响应对象
#     状态码:
#         200: 请求成功
#         503: 服务器问题
#         300 重定向 跳转意思
#     """
#     # 2. 获取数据, 获取服务器返回response响应数据
#     # print(response.text)  # html字符串数据
#     # 3. 解析数据, 提取我们想要内容: ID 标题
#     """
#     正则表达式 是可以直接对于字符串数据 进行解析提取....
#         解析数据: 返回空列表 >>> 表示我们没有提取到内容
#             1. 服务器没有给我们返回数据
#             2. 解析方法(解析语法) 写错了
#     .*? 正则表达式元字符 匹配规则  表示可以匹配任意字符(除了\n以外)  re.S \n也可以匹配
#     response.text 获取响应体文本数据
#     response.json() 获取响应体json字典数据
#     response.content 获取响应体二进制数据
#     """
#     ppt_info = re.findall('(.*?)', response.text)
#     # [('/article/2022/12774.html', '质感纹理工作总结汇报PPT模板')]'
#     for link, title in ppt_info:
#         """
#          # split()字符串分割  >>> /article/2022/12774.html
#         列表索引位置, 从左往右数 从0开始计数的 0 1 2 3 4
#             从右往左数 从-1 -2 -3 -4 计数的
#         format 字符串格式化的方法  {} 占位符
#         """
#         ppt_id = link.split('/')[-1].split('.')[0]
#         #  4. 发送请求, 把ID 传入 https://www.ypppt.com/p/d.php?aid=12774 发送请求
#         link_url = f'https://www.ypppt.com/p/d.php?aid={ppt_id}'
#         # link_url = 'https://www.ypppt.com/p/d.php?aid={}'.format(ppt_id)
#         # link_url = 'https://www.ypppt.com/p/d.php?aid=' + ppt_id
#         response_1 = requests.get(url=link_url, headers=headers, proxies=dit)
#         # 5. 获取数据, 获取服务器返回response响应数据
#         # 6. 提取下载地址 正则提取出来数据返回列表
#         download_url = re.findall('
  • 下载地址1
  • ', response_1.text)[0] # # 7. 保存数据 保存压缩包 图片/音频/视频/特定格式的文件 都是以二进制数据进行保存 # ppt_content = requests.get(url=download_url, headers=headers, proxies=dit).content # 获取二进制数据内容 # # w 写入 b 二进制模式 wb 以二进制模式写入数据 # with open('素材\\' + title + '.zip', mode='wb') as f: # f.write(ppt_content) # print(download_url, title)
    def get_proxy():
        url = 'http://tiqu.pyhttp.taolop.com/getip?count=1&neek=15790&type=2&yys=0&port=1&sb=&mr=2&sep=0&time=4'
        json_data = requests.get(url).json()
        ip_data = 'http://' + str(json_data['data'][0]["ip"]) + ':' + str(json_data['data'][0]["port"])
        dit = {
            'http': ip_data,
            'https': ip_data
        }
        return dit
    
    
    def get_response(html_url):
        """发送请求"""
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
        }
        dit = get_proxy()
        response = requests.get(url=html_url, headers=headers, proxies=dit)
        response.encoding = 'utf-8'
        return response
    
    
    def get_ppt_info(html_url):
        """获取ppt id 以及 标题"""
        response = get_response(html_url)
        data_list = re.findall('(.*?)', response.text)
        return data_list
    
    
    def save(link, title):
        """保存数据"""
        response_1 = get_response(link)
        download_url = re.findall('
  • 下载地址1
  • ', response_1.text)[0] ppt_content = get_response(download_url).content with open('素材\\' + title + '.zip', mode='wb') as f: f.write(ppt_content) print('保存成功: ', title) def main(html_url): """主函数, 把所有的功能函数整合到一起""" data_list = get_ppt_info(html_url) for link, title in data_list: ppt_id = link.split('/')[-1][:-5] ppt_url = f'https://www.ypppt.com/p/d.php?aid={ppt_id}' save(ppt_url, title) if __name__ == '__main__': exe = concurrent.futures.ThreadPoolExecutor(max_workers=5) for page in range(2, 11): # 2,3,4,5,6,7,8,9,10 url = f'https://www.ypppt.com/moban/list-{page}.html/' # 确定url exe.submit(main, url) exe.shutdown()
    关注
    打赏
    1665385393
    查看更多评论
    立即登录/注册

    微信扫码登录

    0.1149s