想要写出好的爬虫就得经历各种风雨!
- ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’ 出现以上这种现象,无非访问频次过多,导致服务器识破了爬虫。
- 分为以下几个步骤走: 1.先检查header头,它可以伪装成浏览器,以防止识破
headers = {
'User-agent':'XXXXXXXXXXXXXXX',
'Cookie':'XXXXXXXXXXXXXXXXXX'
}
只用添加这两条就可!
- 访问频繁,可以适当加点缓冲剂,在request中加一条:
import time
time.sleep(1)
- 以上两种还是解决不了,那就需要做异常处理了。
while 1:
try:
c = requests.get(address, headers=headers).content
except requests.exceptions.RequestException as e:
print(e)
continue
return c
做完异常处理这样就不会中断程序了,爬取成功为止!
- 问题解决了,泡杯茶缓和一下,哈哈哈哈哈哈哈哈哈!