如何提高Tesseract-OCR的识别精度
![如何提高Tesseract-OCR的识别精度_第1页](https://file2.zhuangpeitu.com/fileroot2/2021-11/20/591877c3-6bfd-4ecf-a26d-c77693d8bf94/591877c3-6bfd-4ecf-a26d-c77693d8bf941.gif)
![如何提高Tesseract-OCR的识别精度_第2页](/images/s.gif)
![如何提高Tesseract-OCR的识别精度_第3页](/images/s.gif)
《如何提高Tesseract-OCR的识别精度》由会员分享,可在线阅读,更多相关《如何提高Tesseract-OCR的识别精度(5页珍藏版)》请在装配图网上搜索。
1、如何提高Tesseract-OC的识别精度 概述: 本文介绍了提高Tesseract-OC识别精度的步骤及注意事项。通过对Tesseract-OCR 的训练能有效提高Tesseract-OCF的识别精度,特别是对与验证码识别方面有很 大帮助。 关键字: Tesseract-OC验证码,自动识别,手册,教程 1. 使用步骤 1.1. Make Box Files 1.1.1. command tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] [-l specifiedLang] batch.no
2、chop makebox 1.1.2. output [lang].[fontname].exp[num].box 1.2. Fix Box 1.2.1. command jTessBoxEditor 1.2.2. output 1.3. Run Tesseract for Training 1.3.1. command nobatch tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] box.train 1.3.2. output [lang].[fontname].exp[num]
3、.tr [lang].[fontname].exp[num].txt 1.4. Compute the Character Set 1.4.1. command unicharset_extractor [lang].[fontname].exp[num].box 1.4.2. output unicharset 1.5. Clustering 1.5.1. command1 mftraining -F font_properties -U unicharset [lang].[fontname].exp[num].tr 1.5.2. output1 inttemp mf
4、unicharset Microfeat pffmtable 1.5.3. command2 cntraining [lang].[fontname].exp[num].tr 1.5.4. output2 normproto 1.6. Combine 1.6.1. command combine_tessdata [dir/]lang. 1.6.2. output [lang].traineddata 1.7. Test 1.7.1. command tesseract specifiedTif output -l specifiedLang -psm 7 1.7.2
5、. output output.txt 2. 使用说明 2.1. 关于名称的说明 在各个步骤中多处出现类似 [lang].[fontname].exp[num] 的名称,这个是按照 tesseract的使用说明写的,但在实际使用过程中并不是必须的,可以从简。 例如: my.calibri.exp0.tif 写成 my.tif 也是可以的。 22关于步骤的说明 2.2.1. Make Box File [-1 specifiedLang个人认为主要是为了减少步骤 2 ( Fix Box)的工作量而使用的 选择合适的文件可以让生成的box更加准确,减少修改工作量。 2・2・2・Fi
6、x Box jTessBoxEdito是一个tesseract-OCR的辅助工具,主要用来修改生成的Box。它还 有2个不错的功能就是: 1、合并tif文件;2、利用一个文本和设置的字体生成 一个tif图片 在用jTessBoxEdito修改生成的Box过程中需要注意,如果tesseract-OCR没有认 出某个tif图片上的文字,最好不要自行添加,也不要对粘连的字符进行 split或 对分开的字符进行 merge。因为很可能即使这么做了,在步骤3( Run Tesseract for Training)里也只是会收到一个错误提示。 通过用jTessBoxEditor对识别错误的
7、Box进行修改,可以有效提高 Tesseract-OCR 的识别精度,特别是在图片中的字符出现粘连的情况下。 jTessBoxEdito的下载地址是: http://sourceforge. net/projects/vietocr/files/jTessBoxEditor/ 2.2・3・ Clustering 按照tesseract-OCR的说明,在这个步骤里是可以一次对多个 tr进行操作的,但 我每次都提示程序出错,所以我采取合并文件的方式来变通。 2.2・4・ Combine 这个步骤所生成的traineddata文件就是tesseract-OCR进行识别的关键。在执行 c
8、ombine_tessdata命令前,请将步骤 4( Compute the Character Se)和 5( Clustering) 中生成的6个文件重命名,在文件名前加上“ Iang.”。 例如:lang是 my, 则对应的文件名就是 my. uni charset my.i nttemp my.mfu nicharset my.Microfeat my.pffmtable my.no rmproto) 如果命令参数中用dir指定了目录,请将上述5个文件一起复制到指定的目录中。 2.2.5. Test 生成 traineddata 后,就可以用训练所使用的 tif 图片进行测试。可以通过 -l 命令 指定使用新生成的traineddata。例如:my. traineddata则在使用时就输入“-l my” (即不带后缀的文件名)。测试的结果将会输出到 output.txt 中,可以和 tif 图片 进行比较。 如果发现识别率不高,请重新进行步骤 2(Fix Box)。 如果无法识别,请注意检查是否有遗漏上述步骤的哪一步,或是在执步骤 6 (Comb ine)时是否有遗漏什么文件没有重命名或复制到指定目录下。
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。