您当前的位置: 首页 >  Python

蔚1

暂无认证

  • 0浏览

    0关注

    4753博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Python 爬虫(Urllib 和 Requests 详解+实战)

蔚1 发布时间:2020-02-08 23:30:35 ,浏览量:0

爬虫的本质:模拟浏览器打开网页,获取网页中我们需要的数据和信息

浏览器打开网页的过程:

  • 在浏览器中输入 URL 地址
  • DNS 服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括 HTML、JS、CSS 等文件内容。
  • 浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由 HTML 代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤 HTML 代码,从中获取我们想要资源(文本、图片、视频.....)

爬虫的基本流程:

  • 发起请求
  • 获取响应内容
  • 解析内容
  • 保存数据

本次 Chat 就是详解 Urllib 和 Requests 库,这两个库主要作用于发起请求和获取响应内容。学完本教程后。你将会对网络爬虫有一个十分清晰的认识。

本 Chat 你将会获得以下知识:

  • Urllib 部分
    • Urllib 的使用。
    • Request 的构造和发送
    • Response 的接收和处理
    • 网页源代码的获取和调试

由于Urllib没有Requests好用,这部分就不写案例实战了。

  • Requests 部分
    • Requests 基础
    • 发送请求与接收响应(基本 GET 请求)
    • 发送请求与接收响应(基本 POST 请求)
    • Response 属性
    • 代理
    • Cookie
    • Session
    • 案例(百度贴吧+猫眼电影)

适合人群:想学习网络爬虫的技术人员

阅读全文: http://gitbook.cn/gitchat/activity/5e36239ff77dd74f84f704e6

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

关注
打赏
1560489824
查看更多评论
立即登录/注册

微信扫码登录

0.1345s