爬虫能够不断地向各个地方漫游,得益于它有识别道路的能力,这里所谓的道路就是超级连接。虽然从种子的网页出发,它就会根据下载的网页来识别下一个网页,通过这样的方式,就可以遍历整个网站,从而把所有网页分析一遍,从中拿到我们需要信息。比如你想下载一部网上的小说,而这本小说有1000页,如果你让从头点到尾,需要点击1000次。如果采用爬虫来解决,只需要给出首页,就可以解决了。不过,你需要指定爬虫怎么样从首页里拿到下一页的超级连接。本文将要来学习这方面的内容,这是编写爬虫的基本知识。
继续从前面的抓取名言为例,之前只是爬取了 http://quotes.toscrape.com的两个页面,如果让你爬取整个网站,又需要怎么来处理呢。
上一篇已经学习了从网页里抓取数据,这次继续来学习抓取超级连接。首要的任务就是抓取下一页的超级连接,回过头来查看网页的源码,会发现下一页的超级连接是这样的:
-
Next
关注打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?