Python从入门到爬虫案例实现~

魔王不会哭发布时间：2022-04-13 19:41:03 ，浏览量：7

前言

嗨喽！大家好呀，这里是魔王~

环境使用:

Python 3.8
Pycharm

模块使用:

requests >>> pip install requests
parsel >>> pip install parsel

解析方式 css xpath re requests selenium

如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

如何配置pycharm里面的python解释器?

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
点击齿轮, 选择add
添加python安装路径

Python相关学习方向, 应用方向:

网站开发开发网站, 豆瓣美团 youtube 论坛官网后台信息管理系统…
爬虫程序可见即可爬 (百度文库内容格式是比较乱) 采集网页上面数据程序公开的数据都没有 (个人信息涉及版权[不能盈利] 涩情) 批量采集数据内容, 抢购商品脚本自动发送弹幕自动评论点赞脚本自动发邮件
数据分析把获取下来数据, 做一些可视化图表可以清晰的看到数据走势价格区间客户人群分析…
人工智能 (可以找工作但是学历要求很高硕士相关专业) 人脸识别视频换脸小机器人语音识别语气助手…
自动化办公适合会计财务文职一类工作平时处理数据比较多的
游戏开发小游戏

做一个简单爬虫案例: 一点点前端知识

基本数据类型字符串使用定义
数据容器 list(列表) dict(字典)
for循环使用
requests的简单使用
解析方法的使用

import re

"""
# 什么样的数据才是字符串数据 字符串是什么样子的?
a = 'python'  # 单引号 双引号 三引号(也可以作为多行注释)
b = "hello"
print(c)
"""

"""
列表 [] 数据容器 存储数据内容
    列表取值 根据他索引位置提取内容
    列表切片
lis = [1, 2, 3, 4, 5, 6, 7, 8]
# 提取lis里面 元素 4 怎么取
print(lis[3])
print(lis[-5])
# 提取列表里面 1 2 3 4   顾头不顾尾
print(lis[0:4:1])  # 步长默认是 1
# 提取列表 1 3 5 7   1 2 3 4 5 7
print(lis[0:7:2])
# 提取列表 2 4 6
print(lis[1:6:2])
lis = ['1', '2', '3', '4', '5', '6', '7', '8']
# 如果说想要提取  1 2 3 4 5 6 7 8 都提取出来 一个一个提取
# 如果想要获取数据 1,2,3,4,5,6,7,8  列表转字符串
# for i in lis:
#     print(i)
print(str(lis))
string = ','.join(lis)  # 把列表 转成字符串
print(string)
print('1,2,3,4,5,6,7,8')
"""

# # 导入一个数据请求模块
# import requests   # requests 别人写好的代码 程序 可以直接拿过来使用
# # 导入解析模块
# import parsel
# # 导入文件操作模块
# import os
# import re
#
# # 代理ip结构
# # proxies_dict = {
# #     "http": "http://" + ip:端口,
# #     "https": "http://" + ip:端口,
# # }
#
#
# def get_proxies():
#     proxies_url = 'http://tiqu.pyhttp.taolop.com/getip?count=1&neek=15790&type=2&yys=0&port=1&sb=&mr=1&sep=0&ts=1&time=4'
#     json_data = requests.get(url=proxies_url).json()
#     # print(json_data)
#     proxies_dict = {
#         "http": "http://" + json_data['data'][0]['ip'] + ':' + str(json_data['data'][0]['port']),
#         "https": "http://" + json_data['data'][0]['ip'] + ':' + str(json_data['data'][0]['port']),
#     }
#     return proxies_dict
#
#
# proxies_dict = get_proxies()
# list_url = 'https://www.qbiqu.com/0_1/'  # 小说目录页面
# headers = {
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
# }
# response = requests.get(list_url, headers, proxies=proxies_dict)
# response.encoding = 'gbk'  # 编码  gbk编码格式
# # print(response.text)
# href = re.findall('.*?', response.text)
# name = re.findall('

关注

打赏

1688896170

查看更多评论

Python从入门到爬虫案例实现~

[ 申请 ]友情链接：