您当前的位置: 首页 >  scrapy

壹小俊

暂无认证

  • 0浏览

    0关注

    885博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫第九课---scrapy中间件

壹小俊 发布时间:2019-05-22 23:10:07 ,浏览量:0

'''
scrapy中间件

获取数据

模拟请求   headers User-Agent

ip地址

cookies 每次请求之前,要先添加cookies信息

scrapy 是会自动保存cookies信息

process_request
返回None scrapy继续处理这个Request
返回Response scrapy 直接返回这个Response
返回request scrapy 重新调度返回的Request请求
返回异常

在请求之前对requset进行处理

process_response
在请求之后对返回数据的response进行处理

'''
"""
selenium库(自动化测试库)的使用
下载浏览器驱动:http://chromedriver.storage.googleapis.com/index.html
下载对应的驱动器。
"""

简单的代码实现:

中间件代码(middlewares.py)

from scrapy import signals
from selenium import webdriver
import time
import scrapy

…………………………

class SeleniumspiderDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This meth
关注
打赏
1664335782
查看更多评论
立即登录/注册

微信扫码登录

0.1162s