您当前的位置: 首页 >  Python
  • 2浏览

    0关注

    214博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫从入门到精通(6) | 使用Python-OCR识别库对图形验证码进行识别

不愿透露姓名の网友 发布时间:2019-11-25 19:19:21 ,浏览量:2

在这里插入图片描述

文章目录
  • 一、tesseract破解验证码
    • 1.下载安装tesseract
    • 2.python安装tesseract模块及其配置
    • 3.demo测试
  • 二、muggle_ocr破解和识别验证码
    • 1.介绍
    • 2.安装
    • 3.demo测试
  • 三、其他识别验证码的常用库
  • 四、高难度图片验证码

一、tesseract破解验证码 1.下载安装tesseract

①下载地址

下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 在这里插入图片描述 选择合适的版本安装即可(其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.02.exe)

②一路next安装即可

在这里插入图片描述 我安装在d盘

③配置环境变量

系统变量 在这里插入图片描述 path变量 在这里插入图片描述

④验证是否安装成功

在这里插入图片描述

2.python安装tesseract模块及其配置

①下载安装

pip install pytesseract

在这里插入图片描述

②进入pycharm,按两次shift搜索tesseract修改源码 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

3.demo测试

在这里插入图片描述

import pytesseract
from PIL import Image

image = Image.open('CheckCode.png')
# 把一个彩色图变成灰度图
image = image.convert('L')
tessdata_dir_config = '--tessdata-dir "D:\\Tesseract-OCR\\tessdata"'

# 去除干扰线
threshold = 128
table = []
for i in range(256):
    if i             
关注
打赏
1657102503
查看更多评论
0.0375s