Python 爬虫详解

一、爬虫概述 1、爬虫简介

要对数据进行处理和分析，首先就要拥有数据。在当今这个互联网时代，大量信息以网页作为载体，网页也就成了一个很重要的数据来源。但是，网页的数量非常之多，如果以人工的方式从网页上采集数据，工作量相当巨大。从本章开始就要为大家介绍一个自动采集网页数据的利器——爬虫。

爬虫是指按照一定的规则自动地从网页上抓取数据的代码或脚本，它能模拟浏览器对存储指定网页的服务器发起请求，从而获得网页的源代码，再从源代码中提取出需要的数据。使用爬虫获取数据，具有全天候、无人值守、效率高等优点。

爬虫有什么用：

市场分析：电商分析、商圈分析、一二级市场分析等
市场监控：电商、新闻、房源监控等
商机发现：招投标情报发现、客户资料发掘、企业客户发现等

通用的网络爬虫框架：

挑选种子 URL；
将这些 URL 放入待抓取的 URL 队列；
取出待抓取的 URL，下载并存储进已下载网页库中。此外，将这些 URL 放入已抓取 URL 队列；
分析已抓取队列中的 URL，并且将 URL 放入待抓取 URL 队列，从而进入下一循环。

2、网页结构

我们平时在浏览器中看到的网页其实是浏览器根据网页的源代码进行渲染后呈现在浏览器窗口中的效果。网页的源代码规定了网页中要显示的文字、图片等信息的内容和格式，我们想要提取的数据就隐藏在源代码中。为了准确地提取数据，需要分析网页的源代码，摸清网页的结构，找到数据的存储位置，从而制定出提取数据的规则，编写出爬虫的代码。因此，下面先来学习网页源代码和网页结构的基础知识。

1. 查看网页的源代码

许多读者可能知道，右击网页的任意空白处，在弹出的快捷菜单中执行“查看页面源代码”命令，就能看到网页的源代码。但是这种查看网页源代码的方式不便于我们分析数据在源代码中所处的位置。这里要介绍的是谷歌浏览器自带的一个数据挖掘利器——开发者工具，它能直观地指示网页内容和源代码的对应关系，帮助我们更快捷地定位数据。

例如，在谷歌浏览器中使用百度搜索引擎搜索“当当”，然后按【F12】键或按快捷键【Shift+Ctrl+I】，即可打开开发者工具，界面如下图所示。

此时窗口的上半部分显示的是网页，下半部分默认显示的是“Elements”选项卡，该选项卡中的内容就是网页源代码。源代码中被“”括起来的文本称为Elements对象或网页元素，我们需要提取的数据就存放在这些Elements对象中。

单击开发者工具左上角的元素选择工具，按钮图标颜色变成蓝色，再将鼠标指针移动到窗口上半部分的任意网页元素上，该元素会被突出显示，单击元素，则窗口下半部分中该元素对应的网页源代码会被选中，同时元素选择工具的按钮图标颜色恢复灰色。

如下图所示为利用元素选择工具选中网页左上角的百度徽标的效果。

2. 网页结构的组成

前面利用开发者工具查看了网页的源代码和存放数据的网页元素，大家对网页源代码应该有了初步的认识。将通过搭建一个简单的网页来帮助大家进一步认识网页结构的基本组成。

先使用PyCharm编辑器创建一个HTML文档。启动PyCharm，执行“File>New”菜单命令，在弹出的界面中单击“HTML File”，再在弹出的界面中输入文件名“test”，按【Enter】键，PyCharm会自动补全文件的扩展名，得到一个名为“test.html”的HTML文档。

该HTML文档的内容并不是空白的，PyCharm会自动生成一些网页源代码，搭建出一个HTML文档的基本框架，如下图所示。

单击代码编辑区右上方的浏览器图标，如下图所示，就能用对应的浏览器打开该HTML文档。

从网页源代码可以看出，大部分网页元素是由格式类似“文本内容”的源代码来定义的，这些“”称为HTML标签。在PyCharm自动生成的网页源代码的基础上，我们可以继续添加HTML标签来充实HTML文档的内容。下面就来介绍一些常用的HTML标签。

1）

标签

标签定义了一个区块，表示在网页中划定一个区域来显示内容，区块的宽度和高度分别用参数width和height来定义，区块边框的格式（如粗细、线型、颜色等）用参数border来定义，这些参数都存放在style属性下。这里在“test.html”文件的标签下方输入如下图所示的两行代码，添加两个

标签，即添加两个区块。

添加的

标签的代码定义了两个区块的宽度和高度均为100 px，边框的格式也相同，只是区块中显示的文本内容不同。在谷歌浏览器中打开修改后的“test.html”文件，并按【F12】键打开开发者工具查看网页源代码，效果如下图所示。可以看到，网页源代码经过浏览器的渲染后得到的网页中显示了两个正方形，正方形里的文本就是源代码中被

标签括起来的文本。

2）

标签

Python 爬虫详解

最近更新

热门博客

[ 申请 ]友情链接：