前言
嗨喽!大家好,这里是魔王~
今天某人在偶然之间发现了一个久远的网站,好东西当然是要分享出来了(‾◡◝)
网站网址 看了不要激动,这种时候视频当然要保存下载喽~不然不见了咋办
本次目的:用 Python 带你看遍 女神视界
- 海量视频数据一键保存
- html标签数据解析方法
- re解析数据方法
- python 3.8
- pycharm 2021.2
- requests >>> pip install requests
- parsel >>> pip install parsel
+python安装包 安装教程视频 +pycharm 社区版 专业版 及 激活码免费 +看评论区或私我领取
一. 分析网站(思路分析)我们通过在网页链接前面+ view-source:https:…
就可以查看到网页源代码, 我们在网页源代码当中可以找到 视频链接地址
二. 代码实现- 发送网络请求
- 获取数据 网页源代码
- 筛选数据 视频详情页地址
- 发送网络请求
- 获取数据 网页源代码
- 筛选数据 视频播放地址
- 访问视频播放地址
- 获取视频二进制数据
- 保存 视频数据
import requests # 发送网络请求
import re # 正则模块
import parsel # 解析数据模块
1. 发送网络请求
url_1 = 'https://www.520mmtv.com/tag/xg.html'
response_1 = requests.get(url_1)
2. 获取数据 网页源代码
data_html_1 = response_1.text
3. 筛选数据 视频详情页地址
selector = parsel.Selector(data_html_1)
info_url_list = selector.css('.meta-title::attr(href)').getall()
title_url_list = selector.css('.meta-title::text').getall()
new_title_list = [i for i in title_url_list if i != ' ']
# zip: 我们需要把视频链接 标题一起进行循环
for zip_data in zip(info_url_list, new_title_list):
url = zip_data[0]
1. 发送网络请求
response = requests.get(url=url)
# : 发送请求成功响应
2. 获取数据 网页源代码
data_html = response.text
3. 筛选数据 视频播放地址
# 第一个参数匹配规则 第二个我们要在哪里匹配
video_url = re.findall('url: "(.*?)",', data_html)[0]
print(video_url)
4. 访问视频播放地址
5. 获取视频/音频/图片 二进制数据
video_data = requests.get(video_url).content
title = zip_data[1]
6. 保存 视频数据
with open(f'video\\{title}.mp4', mode='wb') as f:
f.write(video_data)
print(title, '爬取成功!!!')
好了,我的这篇文章写到这里就结束啦!
有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!