您当前的位置: 首页 >  scrapy

壹小俊

暂无认证

  • 2浏览

    0关注

    885博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫第八课--scrapy模拟登陆

壹小俊 发布时间:2019-05-15 23:45:06 ,浏览量:2

'''
1.Requset()实例中有很多参数,一般我们使用的get,如果使用post。使用参数method,post传递参数使用body,
参数格式是json编码,也就是字符串
我们使用post请求的第二种方法就是使用FormRequest(),传递参数还是使用formdata。
2.日志
级别error 》  info  》 debug
设置日志的等级
1》配置文件中配置
LOG_LEVEL = 'DEBUG'
LOG_FILE = 'log.log'
2》命令行设置   scrapy crawl 爬虫 -L INFO
        --nolog 不打印日志
3.模拟登录
》查看请求,查看浏览器是如何登录的,发送了什么header信息,什么data信息
》构造data数据包
》通过python发送请求
'''

'''
scrapy 默认有去重机制,在内存中进行去重
start_urls中默认不会去重的,不想去重,在requset中使用参数dont_filter=true
'''
# -*- coding: utf-8 -*-
import scrapy


class Login2SpiderSpider(scrapy.Spider):
    name = 'login2_spider'
    # allowed_domains = ['example.webscraping.com/places/default/user/login']
    start_urls = ['http://example.webscraping.com/places/default/user/
关注
打赏
1664335782
查看更多评论
立即登录/注册

微信扫码登录

0.0665s