'''
scrapy_redis
request请求的共享
我们使用基于内存存储的redis数据库处理,解决request请求调度的问题
url去重
scrapy_redis提供的组件
Schedule dupefilter Pipeline Spider
Request队列 Schedule
安装 pip install scrapy_redis
实现步骤
修改原来的父类,继承RedisSpider
修改settings 里面的配置
启动之后,往redis_key里面添加url就可以了
原spider修改成scrapy_redis
配置中修改:
去重:DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
调度器: SCHEDULER = "scrapy_redis.scheduler.Scheduler"
保持队列,允许暂停和恢复:SCHEDLER_PERSIST = True
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline':400,
}
redis配置
REDIS_HOST = '127.0.0.1'
REDIS_POST = 6379
spider中修改类:
from scrapy_redis.spiders import RedisSpider
继承RedisSpider
添加字段 redis_key = '爬虫名称:start_url'
强烈建议:不要把数据存储到redis中
'''
# -*- coding: utf-8 -*-
import scrapy
from scr