前言
嗨喽!大家好呀,这里是魔王~
环境使用:- Python 3.8
- Pycharm
- requests >>> pip install requests
- parsel >>> pip install parsel
解析方式 css xpath re requests selenium
如果安装python第三方模块:- win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
- 在pycharm中点击Terminal(终端) 输入安装命令
- 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
- 点击齿轮, 选择add
- 添加python安装路径
- 网站开发 开发网站, 豆瓣 美团 youtube 论坛 官网 后台信息管理系统…
- 爬虫程序 可见即可爬 (百度文库 内容格式是比较乱) 采集网页上面数据程序 公开的数据都没有 (个人信息 涉及版权[不能盈利] 涩情) 批量采集数据内容, 抢购商品脚本 自动发送弹幕 自动评论 点赞 脚本 自动发邮件
- 数据分析 把获取下来数据, 做一些可视化图表 可以清晰的看到数据走势 价格区间 客户人群分析…
- 人工智能 (可以找工作但是学历要求很高 硕士相关专业) 人脸识别 视频换脸 小机器人 语音识别 语气助手…
- 自动化办公 适合会计 财务 文职一类工作 平时处理数据比较多的
- 游戏开发 小游戏
- 基本数据类型 字符串使用定义
- 数据容器 list(列表) dict(字典)
- for循环使用
- requests的简单使用
- 解析方法的使用
import re
"""
# 什么样的数据才是字符串数据 字符串是什么样子的?
a = 'python' # 单引号 双引号 三引号(也可以作为多行注释)
b = "hello"
print(c)
"""
"""
列表 [] 数据容器 存储数据内容
列表取值 根据他索引位置提取内容
列表切片
lis = [1, 2, 3, 4, 5, 6, 7, 8]
# 提取lis里面 元素 4 怎么取
print(lis[3])
print(lis[-5])
# 提取列表里面 1 2 3 4 顾头不顾尾
print(lis[0:4:1]) # 步长默认是 1
# 提取列表 1 3 5 7 1 2 3 4 5 7
print(lis[0:7:2])
# 提取列表 2 4 6
print(lis[1:6:2])
lis = ['1', '2', '3', '4', '5', '6', '7', '8']
# 如果说想要提取 1 2 3 4 5 6 7 8 都提取出来 一个一个提取
# 如果想要获取数据 1,2,3,4,5,6,7,8 列表转字符串
# for i in lis:
# print(i)
print(str(lis))
string = ','.join(lis) # 把列表 转成字符串
print(string)
print('1,2,3,4,5,6,7,8')
"""
# # 导入一个数据请求模块
# import requests # requests 别人写好的代码 程序 可以直接拿过来使用
# # 导入解析模块
# import parsel
# # 导入文件操作模块
# import os
# import re
#
# # 代理ip结构
# # proxies_dict = {
# # "http": "http://" + ip:端口,
# # "https": "http://" + ip:端口,
# # }
#
#
# def get_proxies():
# proxies_url = 'http://tiqu.pyhttp.taolop.com/getip?count=1&neek=15790&type=2&yys=0&port=1&sb=&mr=1&sep=0&ts=1&time=4'
# json_data = requests.get(url=proxies_url).json()
# # print(json_data)
# proxies_dict = {
# "http": "http://" + json_data['data'][0]['ip'] + ':' + str(json_data['data'][0]['port']),
# "https": "http://" + json_data['data'][0]['ip'] + ':' + str(json_data['data'][0]['port']),
# }
# return proxies_dict
#
#
# proxies_dict = get_proxies()
# list_url = 'https://www.qbiqu.com/0_1/' # 小说目录页面
# headers = {
# 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
# }
# response = requests.get(list_url, headers, proxies=proxies_dict)
# response.encoding = 'gbk' # 编码 gbk编码格式
# # print(response.text)
# href = re.findall('.*?', response.text)
# name = re.findall('
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?