Tesseract的安装及配置
在Python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是"external nofollow" target="_blank" data-cke-saved-href="https://digi.bib.uni-mannheim.de/tesseract/" href="https://digi.bib.uni-mannheim.de/tesseract/">https://digi.bib.uni-mannheim.de/tesseract/可以选择下载不带dev的稳定版本,我下载的是3.05.01版本的,不过这个版本的可能比较早了,识别能力不是很厉害,读者可以选择下载最新版本的3.05.02,识别能力应该会好很多。
下载完就是一路双击,在最后的Additional Language data(download)选上这个选项,是OCR支持各种语言的包,然后继续安装,直到安装成功。
我的安装路径为:G:\Program Files (x86)\Tesseract-OCR
安装完成后就得需要配置环境变量,打开环境变量设置,在path中加入如下
就是类似于这种的截图,这该怎么办,难道要去下载visual C++吗?我们有更好的解决方法,下载对应的.whl文件
下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases一定要下载对应版本的
我的是3.5.1,所以我下载的是这个版本的。读者可以自行选择。
我的tesserocr-2.2.2-cp36-cp36m-win_amd64.whl文件下载在G盘根目录下,然后在cmd里输入 pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 开始安装whl文件,发现报错了。提示不能安装whl文件。。原来是没有安装wheel。
然后我就去安装了wheel 直接 pip install wheel即可。
安装成功 在输入pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 发现开始安装了。
哎心累啊,总算弄好了。但是,我在pycharm中调用tesserocr 这个库,他又提示报错了,这是为什么呢?百度了一下最终解决。
原来需要在pycharm下的terrminal下输入如下图:
如果报错了还得有一步操作。
将Tesseract-OCR下的tessdata文件复制到你的Python安装路径的scripts下:
这样
这下应该就彻底安装成功了。。
这下在pycharm里总算不会报错了,我们来试一下识别这两张图片的效果
代码:
from PIL import Image import tesserocr imag=Image.open('test.jpg') print(tesserocr.image_to_text(imag)) imag1=Image.open('image.png') print(tesserocr.image_to_text(imag1))
输出结果如下:
将762408识别成了162408 我也很无奈呀。。。可能是因为版本太菜了吧
以上就是我安装tesserocr遇到的问题及解决办法了。其实还可以装pytesseract这个库。
安装pytesseract库
安装这个pytesseract库可比tesserocr方便多了,根本不会报错,直接pip install pytesseract 完事。。pycharm直接搜索库
然后下载就完事,多省事。。。。
看一下识别效果,还是同样的两张图片。
代码:
import pytesseract from PIL import Image import tesserocr im=Image.open('test.jpg') print(pytesseract.image_to_string(im)) im1=Image.open('image.png') print(pytesseract.image_to_string(im1))
运行结果:
运行结果一样的,所以我推荐大家使用pytesseract这个库。
验证码识别问题
代码如下:
import pytesseract from PIL import Image import tesserocr #简单验证 特别垃圾 image=Image.open('3.jpg') result=tesserocr.image_to_text(image) print(result) #完全验证 也不咋地。。 image1=Image.open('3.jpg') image1=image1.convert('L') threshold=127 table=[] for i in range(256): if i <threshold: table.append(0) else: table.append(1) image2=image1.point(table,'1') image2.show() #二值化灰度处理图片显示 result=pytesseract.image_to_string(image2) print(result)
运行结果:
"" data-cke-saved-src="//img.jbzj.com/file_images/article/201903/2019030714430950.PNG">
我都能看出来是H83G了,你识别个H535是个什么鬼。。综上,这个库吧,可能效果也不是那么好。先凑活用吧。。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 中国武警男声合唱团《辉煌之声1天路》[DTS-WAV分轨]
- 紫薇《旧曲新韵》[320K/MP3][175.29MB]
- 紫薇《旧曲新韵》[FLAC/分轨][550.18MB]
- 周深《反深代词》[先听版][320K/MP3][72.71MB]
- 李佳薇.2024-会发光的【黑籁音乐】【FLAC分轨】
- 后弦.2012-很有爱【天浩盛世】【WAV+CUE】
- 林俊吉.2012-将你惜命命【美华】【WAV+CUE】
- 晓雅《分享》DTS-WAV
- 黑鸭子2008-飞歌[首版][WAV+CUE]
- 黄乙玲1989-水泼落地难收回[日本天龙版][WAV+CUE]
- 周深《反深代词》[先听版][FLAC/分轨][310.97MB]
- 姜育恒1984《什么时候·串起又散落》台湾复刻版[WAV+CUE][1G]
- 那英《如今》引进版[WAV+CUE][1G]
- 蔡幸娟.1991-真的让我爱你吗【飞碟】【WAV+CUE】
- 群星.2024-好团圆电视剧原声带【TME】【FLAC分轨】