功能强大的Scrapy （网络爬虫框架）总结

默默爬行的虫虫发布时间：2022-07-10 19:05:43 ，浏览量：4

1.Scrapy简介

随着大数据价值的提升，数据采集和爬虫已成为获取真实数据主要的来源，Scrapy是用python开发的一个应用程序框架，用于对网站进行爬取和提取结构化数据，这些结构化的数据可用于数据数据分析等。

Scrapy一站式解决了Requests库和BeautifulSoup库两个库所做的工作；并且完善了爬虫调度流程，简化了数据爬取任务。

2.网络爬虫

爬虫基本流程：在这里插入图片描述

发起请求：通过HTTP库向目标站点发起请求，等待目标站点服务器响应。

获取响应：若服务器正常响应，会返回一个Response，该Response即为获取得页面内容，Response可以是HTML、JSON字符串、二进制数据等数据类型。

解析内容：利用正则表达式、网页解析库对HTML进行解析；将json数据转为JSON对象进行解析；保存我们需要得二进制数据（图片、视频）。

保存数据：可将爬取并解析后的内容保存为文本，或存至数据库等。

3.Scrapy总览

在这里插入图片描述 Scrapy开发步骤

新建工程和spider模板
编写Item.py（确定需要采集的信息）
编写spider.py（网页爬取，数据采集）
编写pipelines.py（数据清洗、保存）
优化配置策略

Scrapy命令行

在这里插入图片描述 Scrapy组成部分

在这里插入图片描述三大类

Scrapy数据流在这里插入图片描述

引擎（engine）：打开要处理的网站，向爬虫（spider）请求第一个要爬取的URL
引擎（engine）：从爬虫（spider）获取第一个要爬取的URL，并交给调度器（scheduler）处理
调度器（scheduler）：返回处理好的request给引擎（engine）
引擎（engine）：将request传递给（downloader）下载器下载
下载器（downloader）：将下载好的信息传递给引擎（engine）
引擎（engine）：将下载好的response传递给爬虫（spider） 7.爬虫（ spider）：提交从response获取的item数据和需跟进的URL
引擎（engine）：将item传递给管道（item pipeline），将需跟进的URL传递给调度器（scheduler），重复4至8步骤，直至获取完全部信息
管道（item pipeline）：处理item数据

4.选择器

选择器是实现spider的关键技术，我们通过选择器来定位网页源码中我们所需信息的位置，并提取该位置；所以选择器是spider的核心。 xpath选择器 xpath使用路径表达式来选取节点。

在这里插入图片描述通过在路径表达式中使用“|”运算符，来选取若干个路径。 xpath 通配符可用来选取未知的 XML 元素。谓语用来查找某个特定的节点或者包含某个指定的值的节点；谓语被嵌入在"[ ]"中。 CSS选择器

5.scrapy爬虫实战

目标：获取起点中文网中小说热销榜的数据信息：小说名称、作者、类型、形式。

创建项目通过命令行定位到存储项目的目录：

cd d:\scrapyProject\

创建一个名为qidian_hot的项目：

scrapy startproject qidian_hot

创建一个名为hot的爬虫：

scrapy genspider hot "http://qidian.com"

编写items.py代码：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class QidianHotItem(scrapy.Item):
    name = scrapy.Field()
    author = scrapy.Field()
    types = scrapy.Field()
    form = scrapy.Field()
    # define the fields for your item here like:
    # name = scrapy.Field()
    #pass

编写hot.py代码：

#coding:utf-8

from scrapy import Request
from scrapy.spiders import Spider
from ..items import QidianHotItem
#导入下需要的库

class HotSalesSpider(Spider):#设置spider的类
    
    name = "hot" #爬虫的名称
    #设置header
    qidian_header={"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"} 
    current_page = 1 #爬虫起始页
    
    def start_requests(self): #重写第一次请求
        url="https://www.qidian.com/rank/hotsales?style=1&page=1"
        yield Request(url,headers=self.qidian_header,callback=self.hot_parse)
        #Request发起链接请求
        #url：目标url
        #header:设置头部（模拟浏览器）
        #callback:设置页面抓起方式（空默认为parse）
        
    def hot_parse(self, response):#数据解析
        #xpath定位
        list_selector=response.xpath("//div[@class='book-mid-info']")
        #获取所有小说
        for one_selector in list_selector:
            #获取小说信息
            name=one_selector.xpath("h4/a/text()").extract()[0]
            #获取作者
            author=one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            #获取类型
            types=one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            # 获取形式
            form=one_selector.xpath("p[1]/span/text()").extract()[0]

            item = QidianHotItem()
            #生产存储器，进行信息存储
            item['name'] = name
            item['author'] = author
            item['types'] = types
            item['form'] = form

            yield item #送出信息

通过命令行运行爬虫：

scrapy crawl hot -o hot.csv

查看数据在这里插入图片描述

关注

打赏

1688896170

查看更多评论

功能强大的Scrapy （网络爬虫框架）总结

[ 申请 ]友情链接：