tesseract OCR¶
tesseract 用法¶
tesseract –help-extra
tesseract –psm 7 test.png stdout digits
tesseract -l chi_sim –psm 7 20201214091752.jpg stdout
tesseract –list-langs
–psm 参数¶
0:定向脚本监测(OSD) 1: 使用OSD自动分页 2 :自动分页,但是不使用OSD或OCR(Optical Character Recognition,光学字符识别) 3 :全自动分页,但是没有使用OSD(默认) 4 :假设可变大小的一个文本列。 5 :假设垂直对齐文本的单个统一块。 6 :假设一个统一的文本块。 7 :将图像视为单个文本行。 8 :将图像视为单个词。 9 :将图像视为圆中的单个词。 10 :将图像视为单个字符。
Tesseract训练¶
大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中
获取样本文件¶
画图打开,另存为tif文件
Merge样本文件¶
打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存
生成BOX文件¶
tesseract testlang.normal.exp0.tif -l chi_sim testlang.normal.exp0 makebox
定义字符配置文件¶
在目标文件夹内生成一个名为font_properties的文本文件,内容为
font 0 0 0 0 0
【语法】:
fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用。
字符矫正¶
打开jTessBoxEditor,BOX Editor -> Open,打开num.font.exp0.tif;矫正
执行批处理文件¶
在目标目录下生成一个批处理文件
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
|
将生成的traineddata放入tessdata中¶
最后将num.trainddata复制到Tesseract-OCR中tessdata文件夹即可。