文章目录
直播平台就只有那么几个流批的,大家应该多少都看过,不是吧不是吧,不会没有不知道吧~
- 一、前面的前奏
- 二、爬虫流程
- 三、代码展示

再众所周知,颜值区的主播一直都是还不错的,一般人顶不住,所以我们今天来一探深浅~
1、使用的环境
- Python3.8
- pycharm专业版
2、模块安装
这是要用的模块
- requests
- re
- json
win+r打开搜索输入cmd按确定打开命令提示符窗口,输入pip install 加上你要安装的模块即可。下载速度慢的话换成国外的镜像源。
我还给大家准备了Python实现的五子棋游戏和超级玛丽源码,还有Python相关电子书和视频,都可以在左边扫码领取,没有软件或者不会安装也也可以。
二、爬虫流程首先确定我们的需求是什么,以及数据来源分析。
通过开发者工具进行抓包分析,分析视频播放地址来自哪里。
得到视频播放url ,分析视频播放url 可以从哪里获取。
先获取所有视频的ID; 把这个ID传入视频数据包里面,就可以获取音频url地址以及视频标题; 音频url地址,可以进行保存数据;
代码实现步骤
发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
发送请求, 对于视频数据包url地址 获取数据, 获取[服务器]返回的数据内容 解析数据, 提取我们想要的内容 视频url地址以及视频标题 保存数据
三、代码展示导入模块
import requests # 数据请求模块
import pprint # 格式化输出模块
import re # 正则表达式
翻页分析请求url地址的变化规律,构建for循环。
for page in range(3, 11):
print(f'===================正在爬取第{page}页的数据内容===================')
url = f'https://v.****.com/g/all?set_id=31&order=hot&page={page}'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
\d+匹配多个数字 视频ID 都是数字 想要的数据就用() 通过re模块里面findall方法,从response.text 里面匹配查询
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?