您当前的位置: 首页 >  Python

魔王不会哭

暂无认证

  • 4浏览

    0关注

    149博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Python从入门到爬虫案例实现~

魔王不会哭 发布时间:2022-04-13 19:41:03 ,浏览量:4

前言

嗨喽!大家好呀,这里是魔王~

环境使用:
  • Python 3.8
  • Pycharm
模块使用:
  • requests >>> pip install requests
  • parsel >>> pip install parsel

解析方式 css xpath re requests selenium

如果安装python第三方模块:
  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
  2. 在pycharm中点击Terminal(终端) 输入安装命令
如何配置pycharm里面的python解释器?
  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
  2. 点击齿轮, 选择add
  3. 添加python安装路径
Python相关学习方向, 应用方向:
  1. 网站开发 开发网站, 豆瓣 美团 youtube 论坛 官网 后台信息管理系统…
  2. 爬虫程序 可见即可爬 (百度文库 内容格式是比较乱) 采集网页上面数据程序 公开的数据都没有 (个人信息 涉及版权[不能盈利] 涩情) 批量采集数据内容, 抢购商品脚本 自动发送弹幕 自动评论 点赞 脚本 自动发邮件
  3. 数据分析 把获取下来数据, 做一些可视化图表 可以清晰的看到数据走势 价格区间 客户人群分析…
  4. 人工智能 (可以找工作但是学历要求很高 硕士相关专业) 人脸识别 视频换脸 小机器人 语音识别 语气助手…
  5. 自动化办公 适合会计 财务 文职一类工作 平时处理数据比较多的
  6. 游戏开发 小游戏
做一个简单爬虫案例: 一点点前端知识
  1. 基本数据类型 字符串使用定义
  2. 数据容器 list(列表) dict(字典)
  3. for循环使用
  4. requests的简单使用
  5. 解析方法的使用
import re

"""
# 什么样的数据才是字符串数据 字符串是什么样子的?
a = 'python'  # 单引号 双引号 三引号(也可以作为多行注释)
b = "hello"
print(c)
"""

"""
列表 [] 数据容器 存储数据内容
    列表取值 根据他索引位置提取内容
    列表切片
lis = [1, 2, 3, 4, 5, 6, 7, 8]
# 提取lis里面 元素 4 怎么取
print(lis[3])
print(lis[-5])
# 提取列表里面 1 2 3 4   顾头不顾尾
print(lis[0:4:1])  # 步长默认是 1
# 提取列表 1 3 5 7   1 2 3 4 5 7
print(lis[0:7:2])
# 提取列表 2 4 6
print(lis[1:6:2])
lis = ['1', '2', '3', '4', '5', '6', '7', '8']
# 如果说想要提取  1 2 3 4 5 6 7 8 都提取出来 一个一个提取
# 如果想要获取数据 1,2,3,4,5,6,7,8  列表转字符串
# for i in lis:
#     print(i)
print(str(lis))
string = ','.join(lis)  # 把列表 转成字符串
print(string)
print('1,2,3,4,5,6,7,8')
"""
# # 导入一个数据请求模块
# import requests   # requests 别人写好的代码 程序 可以直接拿过来使用
# # 导入解析模块
# import parsel
# # 导入文件操作模块
# import os
# import re
#
# # 代理ip结构
# # proxies_dict = {
# #     "http": "http://" + ip:端口,
# #     "https": "http://" + ip:端口,
# # }
#
#
# def get_proxies():
#     proxies_url = 'http://tiqu.pyhttp.taolop.com/getip?count=1&neek=15790&type=2&yys=0&port=1&sb=&mr=1&sep=0&ts=1&time=4'
#     json_data = requests.get(url=proxies_url).json()
#     # print(json_data)
#     proxies_dict = {
#         "http": "http://" + json_data['data'][0]['ip'] + ':' + str(json_data['data'][0]['port']),
#         "https": "http://" + json_data['data'][0]['ip'] + ':' + str(json_data['data'][0]['port']),
#     }
#     return proxies_dict
#
#
# proxies_dict = get_proxies()
# list_url = 'https://www.qbiqu.com/0_1/'  # 小说目录页面
# headers = {
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
# }
# response = requests.get(list_url, headers, proxies=proxies_dict)
# response.encoding = 'gbk'  # 编码  gbk编码格式
# # print(response.text)
# href = re.findall('.*?', response.text)
# name = re.findall('            
关注
打赏
1665385393
查看更多评论
0.0450s