无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocr
和pytesseract
。tesserocr
和pytesseract
是Python的一个OCR识别库,但其实是对tesseract
做的一层Python API封装,pytesseract
是Google的Tesseract-OCR
引擎包装器;所以它们的核心是tesseract
,因此在安装tesserocr
之前,我们需要先安装tesseract
。
下载安装
下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe
下载完成后,双击安装,可以勾选Additional language data(download)
选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件,解压后将tessdata-master
中的文件复制到Tesseract
的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata
目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR
添加到环境变量中。进入命令提示符,输入tesseract
,显示下图结果,说明配置完成
查看安装了的语言包:tesseract --list-langs
显示我一共安装了167种语言包,里边包含英文或者其他字符。
测试
实验用的二维码
基本使用语法
tesseract image.png result
(tesseract 图片名称 生成文件名称)
结果
由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用
python引入tesseract
在python下使用pip命令即可完成下载安装 pip install pytesseract
识别验证码脚本
import pytesseract from PIL import Image im=Image.open('pin.png') print(pytesseract.image_to_string(im))
结果
这样识别的结果同样跟上文一样,个别字符识别的不是很准确
图像处理
现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化
import pytesseract from PIL import Image im=Image.open('5.jpg') #进行置灰处理 im=im.convert('L') #这个是二值化阈值 threshold=150 table=[] for i in range(256): if i<threshold: table.append(0) else: table.append(1) #通过表格转换成二进制图片,1的作用是白色,0就是黑色 im=im.point(table,"1") im.show() print(pytesseract.image_to_string(im))
原图
置灰和二值化后
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
更新日志
- 何老师客串《浪人崛起》了?盘点与明星撞脸的角色!
- 【原神】关于星鹫赤羽对珐芙琴班配队下珐露珊主C的适配度分析
- 【原神】V5.1攻略 | 迪西雅角色简评
- 【原神】大日御舆顶端怎么上去
- 胥拉齐《感谢有你》DTS-WAV
- 罗海英《金牌歌后》【WAV+CUE】
- 林叶《林叶·夜》【WAV/分轨】
- 群星《国语经典名曲01》音乐磁场系列[WAV+CUE][1G]
- 齐豫《滚石24K》24K金碟珍藏版系列[低速原抓WAV+分轨][1G]
- 齐秦《齐秦[三洋母带] 》1:1母盘直刻限量版[WAV分轨][1G]
- 英雄联盟双城之战第二季在哪里看 双城之战第二季观看地址分享
- 宝可梦大集结公测耿鬼怎么获取 耿鬼获取方法一览
- 宝可梦大集结国服公测有多少只宝可梦 大集结国服宝可梦一览
- 国外渲染大佬《FF7RE》新图赏
- 《夺宝奇兵》Xbox长实机公布:游戏玩法全面展示