您当前的位置: 首页 >  Python

搬砖python中~

暂无认证

  • 3浏览

    0关注

    95博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

python带你采集各种表情包,做群里最靓的崽~

搬砖python中~ 发布时间:2022-07-22 19:08:01 ,浏览量:3

前言

大家早好、午好、晚好吖~

环境使用:
  • Python 3.8
  • Pycharm 2021.2版本
模块使用:
  • import requests >>> pip install requests
  • import re
爬虫的基本套路 一. 数据来源分析
  1. 明确自己需求
  2. url 唯一资源定位符
二. 代码实现步骤
  1. 发送请求, 用python代码模拟浏览器对于url地址发送请求
  2. 获取数据, 获取服务器返回响应数据
  3. 解析数据, 提取我们想要图片url以及图片的标题
  4. 保存数据, 图片内容保存本地文件夹
代码
import requests  # 数据请求模块
import re  # 正则表达式
import time  # 时间模块
import concurrent.futures

def get_response(html_url):
    """
    发送请求函数
    :param html_url: 形式参数, 不具备实际意义
    :return:
    某些你不加伪装,也可以得到数据 
    headers 字典数据类型,
    Cookie 用户信息, 常用于检测是否有登陆账号  
    User-Agent: 用户代理 表示浏览器基本身份标识
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response  #  响应对象, 200表示状态码 请求成功
源码、解答、教程加Q裙:832157862

def get_img_info(html_url):
    """
    获取图片信息函数
    :param html_url: 网址
    :return:
    """
    response = get_response(html_url=html_url)  # 调用函数
    # print(response.text)
    #   () 表示精确匹配, 我们想要数据内容  .*? 通配符 可以匹配任意字符 除了(\n换行符)
    # 正则表达式就是复制粘贴 想要的数据用(.*?)表示就可以了
    title_list = re.findall('', response.text)
    url_list = re.findall('            
关注
打赏
1662460581
查看更多评论
0.0910s