爬虫的本质:模拟浏览器打开网页,获取网页中我们需要的数据和信息
浏览器打开网页的过程:
- 在浏览器中输入 URL 地址
- DNS 服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括 HTML、JS、CSS 等文件内容。
- 浏览器解析出来最后呈现给用户在浏览器上看到的结果
所以用户看到的浏览器的结果就是由 HTML 代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤 HTML 代码,从中获取我们想要资源(文本、图片、视频.....)
爬虫的基本流程:
- 发起请求
- 获取响应内容
- 解析内容
- 保存数据
本次 Chat 就是详解 Urllib 和 Requests 库,这两个库主要作用于发起请求和获取响应内容。学完本教程后。你将会对网络爬虫有一个十分清晰的认识。
本 Chat 你将会获得以下知识:
- Urllib 部分
- Urllib 的使用。
- Request 的构造和发送
- Response 的接收和处理
- 网页源代码的获取和调试
由于Urllib没有Requests好用,这部分就不写案例实战了。
- Requests 部分
- Requests 基础
- 发送请求与接收响应(基本 GET 请求)
- 发送请求与接收响应(基本 POST 请求)
- Response 属性
- 代理
- Cookie
- Session
- 案例(百度贴吧+猫眼电影)
适合人群:想学习网络爬虫的技术人员
阅读全文: http://gitbook.cn/gitchat/activity/5e36239ff77dd74f84f704e6
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。