您当前的位置：首页 > 默默爬行的虫虫 scrapy

scrapy反爬虫与反反爬虫总结

默默爬行的虫虫发布时间：2022-07-10 10:46:16 ，浏览量：6

scrapy反爬虫与反反爬虫文章比较多，都简谈不全，现在搜集好多资料，梳理一下思路，总结了一下内容。

1. 反爬虫技术

首先我们来思考一下，为什么要反爬虫？

网络中充斥大量爬虫的情况下，会使得整个网络的数据不可靠。
网站在面对高并发爬虫的攻击时，很容易被击溃。
版权数据被爬取，对于网站来说是巨大的损失。基于以上原因，反爬虫技术孕育而生，主要包含以下最常用的反爬技术：
封IP 后台对访问进行统计，如果单个IP访问超过阈值，则封锁该IP。
封UserAgent 后台对访问进行统计，如果单个UserAgent访问超过阈值，则封锁该UserAgent。
封Cookie 后台对访问进行统计，如果单个cookies访问超过阈值，则封锁该cookie.
设置请求时间间隔设置请求时间间隔，规避过于频繁的请求访问，避免爬虫短时间爬取大量数据。
robots.txt协议 robots.txt是一个限制爬虫的规范，该文件是用来声明哪些东西不能被爬取；设置robots.txt协议，位于robots.txt中的UserAgent不可请求网站数据。
验证码验证发生大量请求时，弹出验证码验证，通过验证方可继续访问。
JavaScript渲染网页将重要信息放在网页中但不写入html标签中，而浏览器会自动渲染标签中的js代码，将信息展现在浏览器当中，而爬虫是不具备执行js代码的能力，所以无法将js事件产生的信息读取出来。
ajax异步传输访问网页的时候服务器将网页框架返回给客户端，在与客户端交互的过程中通过异步ajax技术传输数据包到客户端，呈现在网页上，爬虫直接抓取的话信息为空。
网页iframe框架嵌套在下载框处再内嵌一个窗口，使得爬虫提取不到内层窗口的数据。

2. 反反爬虫技术

有反爬虫技术，就会有反反爬虫技术存在，这是两种相互对抗的技术；这两种技术也在相互对抗中不断发展。

我们在编写爬虫时，要对获取海量的免费数据心怀感恩，而不是恶意攻击网站，这是一种害人害己的形为。

关注

打赏

1688896170

查看更多评论

默默爬行的虫虫

暂无认证

6浏览

0关注

55博文

0收益
0浏览

0点赞

0打赏

0留言

私信

关注

热门博文

[ 申请 ]友情链接：

南島屋 My命理学快连vpn 快连vpn 搜外友链笔趣阁爱思助手 ClashX教程绘画宝宝配音宝宝

立即登录/注册

微信扫码登录

基本文件流程错误 SQL 调试

/www/wwwroot/www.chaojiit.com/index.php ( 1.30 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/ThinkPHP.php ( 4.71 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Think.class.php ( 12.32 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Storage.class.php ( 1.38 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Storage/Driver/File.class.php ( 3.56 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Mode/common.php ( 2.82 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Common/functions.php ( 51.07 KB )
/www/wwwroot/www.chaojiit.com/Application/Common/Common/function.php ( 6.83 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Hook.class.php ( 4.02 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/App.class.php ( 12.44 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Dispatcher.class.php ( 15.15 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Route.class.php ( 13.38 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Controller.class.php ( 10.95 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/View.class.php ( 7.96 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/BuildLiteBehavior.class.php ( 3.69 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ParseTemplateBehavior.class.php ( 3.89 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ContentReplaceBehavior.class.php ( 1.93 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Conf/convention.php ( 11.18 KB )
/www/wwwroot/www.chaojiit.com/Application/Common/Conf/config.php ( 1.81 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Lang/zh-cn.php ( 2.57 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Conf/debug.php ( 1.51 KB )
/www/wwwroot/www.chaojiit.com/Application/Home/Conf/config.php ( 0.05 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ReadHtmlCacheBehavior.class.php ( 5.62 KB )
/www/wwwroot/www.chaojiit.com/Application/Home/Controller/ArticleController.class.php ( 6.84 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Model.class.php ( 67.27 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Db.class.php ( 5.70 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Db/Driver/Mysql.class.php ( 8.73 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Db/Driver.class.php ( 41.60 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Cache.class.php ( 3.84 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Cache/Driver/File.class.php ( 5.90 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Template.class.php ( 28.35 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Template/TagLib/Cx.class.php ( 22.62 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Think/Template/TagLib.class.php ( 9.19 KB )
/www/wwwroot/www.chaojiit.com/Application/Runtime/Cache/Home/3c8a1a47a3534a7b1252c226abfc3928.php ( 15.00 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/WriteHtmlCacheBehavior.class.php ( 1.43 KB )
/www/wwwroot/www.chaojiit.com/ThinkPHP/Library/Behavior/ShowPageTraceBehavior.class.php ( 5.27 KB )

0.0967s

ShowPageTrace