前言:
嗨喽!大家好呀, 这里是魔王~
知识点:- 动态数据抓包
- 动态页面分析
- requests携带参数发送请求
- json数据解析
- python 3.8 更加新 稳定 运行代码
- pycharm 2021.2 辅助敲代码
- requests 第三方模块
代码里一些东西被我删了好过审核,有需要得小伙伴可看评论或私聊我获取~
import requests # 发送网络请求模块
import re
url = ''
# 伪装
headers = {
# 控制data类型 json类型字符串
'content-type': 'application/json',
'Cookie': '',
'Host': 'www.kuaishou.com',
'Origin': '',
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36',
}
def get_page(pcursor):
# 需要的数据得指定好
# 递归, 自己调用自己 跳出递归
data = {
'operationName': "visionProfilePhotoList",
'query': "",
'variables': {'userId': "3xauthkq46ftgkg", 'pcursor': pcursor, 'page': "profile"}
}
if pcursor == None:
print('全部下载完成')
return 0
# 1. 发送请求 访问网站
response = requests.post(url=url, headers=headers, json=data)
# 2. 获取数据 .json .text .content
json_data = response.json()
# 3. 解析数据 去除不想要的内容
feeds = json_data['data']['visionProfilePhotoList']['feeds']
# 下一页需要的参数
pcursor = json_data['data']['visionProfilePhotoList']['pcursor']
# print(pcursor)
for feed in feeds:
caption = feed['photo']['caption'] # 标题
photoUrl = feed['photo']['photoUrl'] # 视频链接
# \: 转义字符, 直接写\ 匹配不到 \
# \\ 才能匹配到 \
# 用css和xpath 是必须要你拿到的数据是一个网页源代码
caption = re.sub('[\\/:*?"|\n\t]', '', caption)
print(caption, photoUrl)
# 4. 发送请求 访问网站 视频链接
# 5. 获取数据 视频数据 拿到的是视频二进制数据
video_data = requests.get(url=photoUrl).content
# 6. 保存视频 通过二进制的方式保存
with open(f'video/{caption}.mp4', mode='wb') as f:
f.write(video_data)
print(caption, '下载完成!')
get_page(pcursor)
get_page('')
尾语
好了,我的这篇文章写到这里就结束啦!
有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!