1 什么是爬⾍
⽹络爬⾍也叫做⽹络机器⼈,可以代替⼈们⾃动的在互联⽹中进⾏数据信息的采集与整理。
2 爬⾍的作⽤使⽤⽹络爬⾍对数据信息进⾏⾃动采集,⽐如应⽤于搜索引擎中对站点进⾏爬取收录,应⽤于数据分析与挖掘中对数据进⾏采集,应⽤于⾦融分析中对⾦融数据进⾏采集,除此之外,还可以将⽹络爬⾍应⽤于舆情监测与分析、⽬标客户数据的收集等各个领域。
3 爬⾍的分类 3.1 通⽤爬⾍通⽤⽹络爬⾍ 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部 分。主要⽬的是将互联⽹上的⽹⻚下载到本地,形成⼀个互联⽹内容的镜像备份。
3.2 聚焦爬⾍聚焦爬⾍,是"⾯向特定主题需求"的⼀种⽹络爬⾍程序
3.3 通用爬虫与聚焦爬虫区别聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选,尽量保证只抓取与需求相关的⽹⻚信息。
4 爬⾍原理(1) 模拟计算机对服务器发起Request请求. (2) 接收服务端的Response内容并解析, 提取所需的消息.
最基本的⽹络连接原理计算机发起⼀次Request请求,服务器端的Response响应(HTML文件), 即实现了⽹络连接。
5 爬⾍的流程主要包括多⻚⾯和跨⻚⾯爬⾍流程.
5.1 多⻚⾯爬⾍流程多个⻚⾯的⽹⻚结构相同或相似, 这种类型的⽹⻚爬⾍流程为: (1) ⼿动翻⻚并观察各⽹⻚的URL构成特点, 构造出所有⻚⾯的URL存⼊列表中. (2) 根据URL列表依次循环取出URL (3) 定义爬⾍函数 (4) 循环调⽤爬⾍函数, 储存数据. (5) 循环完毕, 结束爬⾍程序, 如下图的流程
流程为:
- 定义爬取函数爬取列表⻚的所有专题的URL
- 将专题URL存⼊列表中(种⼦URL)
- 定义爬取详细⻚数据函数
- 进⼊专题详细⻚⾯爬取详细⻚数据
- 储存数据, 循环完毕, 结束爬取程序