您当前的位置：首页 > 爬虫

稳扎稳打学爬虫01—爬虫基本知识

发布时间：2021-12-28 23:30:41 ，浏览量：7

1 什么是爬⾍

⽹络爬⾍也叫做⽹络机器⼈，可以代替⼈们⾃动的在互联⽹中进⾏数据信息的采集与整理。

2 爬⾍的作⽤

使⽤⽹络爬⾍对数据信息进⾏⾃动采集，⽐如应⽤于搜索引擎中对站点进⾏爬取收录，应⽤于数据分析与挖掘中对数据进⾏采集，应⽤于⾦融分析中对⾦融数据进⾏采集，除此之外，还可以将⽹络爬⾍应⽤于舆情监测与分析、⽬标客户数据的收集等各个领域。

3 爬⾍的分类 3.1 通⽤爬⾍

通⽤⽹络爬⾍是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互联⽹内容的镜像备份。

3.2 聚焦爬⾍

聚焦爬⾍，是"⾯向特定主题需求"的⼀种⽹络爬⾍程序

3.3 通用爬虫与聚焦爬虫区别

聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选，尽量保证只抓取与需求相关的⽹⻚信息。

4 爬⾍原理

(1) 模拟计算机对服务器发起Request请求. (2) 接收服务端的Response内容并解析, 提取所需的消息.

最基本的⽹络连接原理

计算机发起⼀次Request请求，服务器端的Response响应（HTML文件）, 即实现了⽹络连接。

5 爬⾍的流程

主要包括多⻚⾯和跨⻚⾯爬⾍流程.

5.1 多⻚⾯爬⾍流程

多个⻚⾯的⽹⻚结构相同或相似, 这种类型的⽹⻚爬⾍流程为: (1) ⼿动翻⻚并观察各⽹⻚的URL构成特点, 构造出所有⻚⾯的URL存⼊列表中. (2) 根据URL列表依次循环取出URL (3) 定义爬⾍函数 (4) 循环调⽤爬⾍函数, 储存数据. (5) 循环完毕, 结束爬⾍程序, 如下图的流程在这里插入图片描述

5.2 跨⻚⾯爬⾍

流程为：

定义爬取函数爬取列表⻚的所有专题的URL
将专题URL存⼊列表中(种⼦URL)
定义爬取详细⻚数据函数
进⼊专题详细⻚⾯爬取详细⻚数据
储存数据, 循环完毕, 结束爬取程序

关注

打赏

1688896170

查看更多评论

暂无认证

7浏览

0关注

115984博文

0收益
0浏览

0点赞

0打赏

0留言

私信

关注

热门博文

[ 申请 ]友情链接：

传奇私服南島屋 My命理学快连vpn 快连vpn 搜外友链笔趣阁爱思助手 ClashX教程绘画宝宝配音宝宝

立即登录/注册

微信扫码登录

基本文件流程错误 SQL 调试

/www/wwwroot/www.chaojiit.com/index.php ( 1.30 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/ThinkPHP.php ( 4.71 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Think.class.php ( 12.32 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Storage.class.php ( 1.38 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Storage/Driver/File.class.php ( 3.56 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Mode/common.php ( 2.82 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Common/functions.php ( 51.07 KB )
/www/wwwroot/www.chaojiit.com/Application/Common/Common/function.php ( 6.83 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Hook.class.php ( 4.02 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/App.class.php ( 12.44 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Dispatcher.class.php ( 15.15 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Route.class.php ( 13.38 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Controller.class.php ( 10.95 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/View.class.php ( 7.96 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/BuildLiteBehavior.class.php ( 3.69 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ParseTemplateBehavior.class.php ( 3.89 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ContentReplaceBehavior.class.php ( 1.93 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Conf/convention.php ( 11.18 KB )
/www/wwwroot/www.chaojiit.com/Application/Common/Conf/config.php ( 1.81 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Lang/zh-cn.php ( 2.57 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Conf/debug.php ( 1.51 KB )
/www/wwwroot/www.chaojiit.com/Application/Home/Conf/config.php ( 0.05 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ReadHtmlCacheBehavior.class.php ( 5.62 KB )
/www/wwwroot/www.chaojiit.com/Application/Home/Controller/ArticleController.class.php ( 6.84 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Model.class.php ( 67.27 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Db.class.php ( 5.70 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Db/Driver/Mysql.class.php ( 8.73 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Db/Driver.class.php ( 41.60 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Cache.class.php ( 3.84 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Cache/Driver/File.class.php ( 5.90 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Template.class.php ( 28.35 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Template/TagLib/Cx.class.php ( 22.62 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Template/TagLib.class.php ( 9.19 KB )
/www/wwwroot/www.chaojiit.com/Application/Runtime/Cache/Home/3c8a1a47a3534a7b1252c226abfc3928.php ( 15.07 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/WriteHtmlCacheBehavior.class.php ( 1.43 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ShowPageTraceBehavior.class.php ( 5.27 KB )

0.0409s

ShowPageTrace