您当前的位置: 首页 >  爬虫

潇洒白羊

暂无认证

  • 3浏览

    0关注

    68博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

稳扎稳打学爬虫01—爬虫基本知识

潇洒白羊 发布时间:2021-12-28 23:30:41 ,浏览量:3

1 什么是爬⾍

⽹络爬⾍也叫做⽹络机器⼈,可以代替⼈们⾃动的在互联⽹中进⾏数据信息的采集与整理。

2 爬⾍的作⽤

使⽤⽹络爬⾍对数据信息进⾏⾃动采集,⽐如应⽤于搜索引擎中对站点进⾏爬取收录,应⽤于数据分析与挖掘中对数据进⾏采集,应⽤于⾦融分析中对⾦融数据进⾏采集,除此之外,还可以将⽹络爬⾍应⽤于舆情监测与分析、⽬标客户数据的收集等各个领域。

3 爬⾍的分类 3.1 通⽤爬⾍

通⽤⽹络爬⾍ 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部 分。主要⽬的是将互联⽹上的⽹⻚下载到本地,形成⼀个互联⽹内容的镜像备份。

3.2 聚焦爬⾍

聚焦爬⾍,是"⾯向特定主题需求"的⼀种⽹络爬⾍程序

3.3 通用爬虫与聚焦爬虫区别

聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选,尽量保证只抓取与需求相关的⽹⻚信息。

4 爬⾍原理

(1) 模拟计算机对服务器发起Request请求. (2) 接收服务端的Response内容并解析, 提取所需的消息.

最基本的⽹络连接原理

计算机发起⼀次Request请求,服务器端的Response响应(HTML文件), 即实现了⽹络连接。

5 爬⾍的流程

主要包括多⻚⾯和跨⻚⾯爬⾍流程.

5.1 多⻚⾯爬⾍流程

多个⻚⾯的⽹⻚结构相同或相似, 这种类型的⽹⻚爬⾍流程为: (1) ⼿动翻⻚并观察各⽹⻚的URL构成特点, 构造出所有⻚⾯的URL存⼊列表中. (2) 根据URL列表依次循环取出URL (3) 定义爬⾍函数 (4) 循环调⽤爬⾍函数, 储存数据. (5) 循环完毕, 结束爬⾍程序, 如下图的流程 在这里插入图片描述

5.2 跨⻚⾯爬⾍

流程为:

  1. 定义爬取函数爬取列表⻚的所有专题的URL
  2. 将专题URL存⼊列表中(种⼦URL)
  3. 定义爬取详细⻚数据函数
  4. 进⼊专题详细⻚⾯爬取详细⻚数据
  5. 储存数据, 循环完毕, 结束爬取程序
关注
打赏
1655040589
查看更多评论
立即登录/注册

微信扫码登录

0.0349s