バージョン4.00以降のTraineddataファイル
Googleでトレーニングされた公式の.traineddataファイルのセットが3つあります。これらはtesseract
バージョン4.00以降に対応しており、3つの別々のリポジトリで提供されています。
- tessdata_fast (2017年9月) 速度と精度のバランスが最適(コストパフォーマンスが良い)、
Integer
モデル。 - tessdata_best (2017年9月) Googleの評価データで最高の結果、速度は遅い、
Float
モデル。ファインチューニングトレーニングのベースとして使用できる唯一のモデルです。 - tessdata (2016年11月および2017年9月) これらには、2016年のレガシーTesseractモデルが含まれています。LSTMモデルは、tessdata_best LSTMモデルのIntegerバージョンで更新されています。(ヒンディー語、アラビア語などのCubeベースのレガシーTesseractモデルは削除されています)。
tessdata_best
およびtessdata_fast
リポジトリのtraineddataファイルを使用する場合は、新しいLSTMベースのOCRエンジン(–oem 1)のみがサポートされます。レガシーTesseractエンジン(–oem 0)はこれらのファイルではサポートされていません。そのため、Tesseractのoemモード
'0' と '2' は機能しません。
特別なデータファイル
言語コード | 説明 | 4.x/3.0x traineddata |
---|---|---|
osd | 方向とスクリプトの検出 | osd.traineddata |
equ | 数式/方程式の検出 | equ.traineddata |
注記:これらの2つのデータファイルは、以前のバージョンのTesseractと互換性があります。osd
はバージョン3.01以降と互換性があり、equ
はバージョン3.02以降と互換性があります。
更新されたデータファイル(2017年9月15日)
GitHub上に3つの別々のリポジトリに.traineddataファイルのセットが3つあります。これらはTesseract 4.0x+および5.0.0.Alphaと互換性があります。
トレーニング済みモデル | 速度 | 精度 | レガシーサポート | 再トレーニング可能 | |
---|---|---|---|---|---|
tessdata | レガシー + LSTM (整数化されたtessdata-best) | tessdata-bestより高速 | tessdata-bestよりわずかに精度が低い | はい | いいえ |
tessdata-best | LSTMのみ(langdataに基づく) | 最遅 | 最も正確 | いいえ | はい |
tessdata-fast | tessdata-bestより小さなネットワークの整数化されたLSTM | 最速 | 最も精度が低い | いいえ | いいえ |
ほとんどのユーザーはtessdata_fast
を必要とし、Linuxディストリビューションの一部として出荷されるものです。
tessdata_best
は、わずかに高い精度のために速度を犠牲にしても構わないユーザー向けです。また、高度なユーザーによる特定の再トレーニングシナリオで使用できる唯一のファイルセットでもあります。
tessdata
の3番目のセットは、レガシー認識器をサポートする唯一のセットです。2016年11月の4.00ファイルには、レガシーモデルと古いLSTMモデルの両方が含まれています。tessdata
の現在のファイルセットには、レガシーモデルと新しいLSTMモデル(tessdata_bestの4.00.00アルファモデルの整数バージョン)が含まれています。
注記:tessdata_best
およびtessdata_fast
リポジトリの新しいモデルを使用する場合は、新しいLSTMベースのOCRエンジンのみがサポートされます。レガシーエンジンはこれらのファイルではサポートされていません。そのため、Tesseractのoemモード '0' と '2' は機能しません。
バージョン4.00のデータファイル(2016年11月29日)
tessdataタグ付き4.0.0には、Integer
バージョンのtessdata_best
LSTMモデルで更新された2017年9月のモデルが含まれています。このtraineddataファイルセットは、–oem 0によるレガシー認識器と、–oem 1によるLSTMモデルの両方をサポートしています。
tessdataタグ付き4.00には、2016年のモデルが含まれています。個々の言語ファイルは、下の表にリンクされています。
注記:kur
データファイルは、3.04から更新されていません。Frakturには、tessdata_fastまたはtessdata_bestリポジトリの新しいデータファイルを使用してください。
traineddataファイルの形式
各言語のtraineddata
ファイルは、Tesseract固有の形式のアーカイブファイルです。Tesseract OCRプロセスに必要な、いくつかの圧縮されていないコンポーネントファイルが含まれています。combine_tessdata
プログラムを使用して、コンポーネントファイルからtessdata
ファイルを作成し、次の例のように再度抽出することもできます。
2016年11月の4.0.0以前の形式(LSTMモデルとレガシーモデルの両方)
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521
4.00.00alpha LSTMのみの形式
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517
圧縮traineddataファイルの提案
Tesseractのアーカイブ形式を、圧縮にも対応できる標準的なアーカイブ形式に置き換えるための提案がいくつかあります。[tesseract-devフォーラムでの議論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip)では、2014年には既にZIP形式が提案されていました。 | 2017年には、実験的な実装がプルリクエストとして提供されました。 |