您当前的位置: 首页 >  Python

Python爬虫:scrapy框架Spider类参数设置

彭世瑜 发布时间:2018-06-13 09:44:45 ,浏览量:4

Spider设置 参数说明示例name爬虫名称,必须唯一name = “myspider”handle_httpstatus_list需要处理的状态码handle_httpstatus_list = [404]download_delay下载延时(单位:s秒)download_delay = 5allowed_domains域名限制allowed_domains = [“baidu.com”]custom_settings用户设置,单独设置爬虫参数custom_settings ={‘RETRY_TIMES’: 3}start_urls起始链接设置start_urls = [“http://www.baidu.com“] settings.py或者custom_settings 参数说明USER_AGENT请求头ROBOTSTXT_OBEY = False是否遵守robots协议DOWNLOAD_DELAY = 2同一个站点抓取延迟(秒s)CONCURRENT_REQUESTS_PER_DOMAIN = 1对同一个站点并发线程CONCURRENT_REQUESTS_PER_IP = 1对同一个ip并发线程
关注
打赏
1688896170
查看更多评论

彭世瑜

暂无认证

  • 4浏览

    0关注

    2727博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0454s