您当前的位置: 首页 >  redis

壹小俊

暂无认证

  • 1浏览

    0关注

    885博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫第十一课---scrapy_redis的使用以及爬取boss直聘代码

壹小俊 发布时间:2019-06-21 08:46:57 ,浏览量:1

'''
scrapy_redis

request请求的共享
我们使用基于内存存储的redis数据库处理,解决request请求调度的问题

url去重

scrapy_redis提供的组件
Schedule  dupefilter  Pipeline Spider

Request队列 Schedule

安装 pip install scrapy_redis

实现步骤
修改原来的父类,继承RedisSpider
修改settings 里面的配置
启动之后,往redis_key里面添加url就可以了


原spider修改成scrapy_redis

配置中修改:
去重:DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

调度器: SCHEDULER = "scrapy_redis.scheduler.Scheduler"

保持队列,允许暂停和恢复:SCHEDLER_PERSIST = True

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline':400,
}

redis配置
REDIS_HOST = '127.0.0.1'
REDIS_POST = 6379

spider中修改类:
from scrapy_redis.spiders import RedisSpider

继承RedisSpider

添加字段 redis_key = '爬虫名称:start_url'


强烈建议:不要把数据存储到redis中
'''
# -*- coding: utf-8 -*-
import scrapy
from scr
关注
打赏
1664335782
查看更多评论
立即登录/注册

微信扫码登录

0.0377s