- 特殊データファイル
- バージョン 3.04/3.05 用データファイル
- バージョン 3.04/3.05 用 Cube データファイル
- Fraktur データファイル
- バージョン 3.02 用データファイル
- バージョン 2.0x 用データファイル
- traineddata ファイルの形式
特殊データファイル
言語コード | 説明 | 4.0/3.0x traineddata |
---|---|---|
osd | 方向とスクリプトの検出 | osd.traineddata |
equ | 数式/方程式の検出 | equ.traineddata |
注記: これら2つのデータファイルは、以前のバージョンの Tesseract と互換性があります。osd
はバージョン 3.01 以降と互換性があり、equ
はバージョン 3.02 以降と互換性があります。
バージョン 3.04/3.05 用データファイル
注記: アラビア語とヒンディー語には、traineddata ファイルとCube データファイルの両方が必要です。
バージョン 3.04/3.05 用 Cube データファイル
Tesseract 3.0x では、アラビア語とヒンディー語は Cube OCR エンジンを使用します。
Tesseract 4.0 では、Cube OCR エンジンがコードベースから削除されたため、4.0 以降のバージョンを使用する場合は、これらのファイルは必要ありません。
ヒンディー語
hin.cube.bigrams、hin.cube.fold、hin.cube.lm、hin.cube.nn、hin.cube.params、hin.cube.word-freq、hin.tesseract_cube.nn
アラビア語
ara.cube.bigrams、ara.cube.fold、ara.cube.lm、ara.cube.nn、ara.cube.params、ara.cube.word-freq、ara.cube.size、ara.tesseract_cube.nn
Fraktur データファイル
これらのデータファイルは、@paalberti によって以前のバージョンの Tesseract 用に作成されました。dan_frak
、deu_frak
、およびswe_frak
はバージョン 3.00 用に、slk_frak
は 3.01 用に作成されました。これらのファイルのアップデートは、paalberti/tesseract-dan-fraktur で入手できます。
言語コード | 言語 | 3.0x traineddata |
---|---|---|
dan_frak | デンマーク語 - Fraktur | dan_frak.traineddata |
deu_frak | ドイツ語 - Fraktur | deu_frak.traineddata |
slk_frak | スロバキア語 - Fraktur | slk_frak.traineddata |
swe_frak | スウェーデン語 - Fraktur | swe-frak.traineddata |
バージョン 3.02 用データファイル
バージョン 2.0x 用データファイル
言語コード | 言語 | 2.0x traineddata |
---|---|---|
deu | ドイツ語 | tesseract-2.00.deu.tar.gz |
deu-f | ドイツ語 - Fraktur | tesseract-2.01.deu-f.tar.gz |
eng | 英語 | tesseract-2.00.eng.tar.gz |
eus | バスク語 | tesseract-2.04-eus.tar.gz |
fra | フランス語 | tesseract-2.00.fra.tar.gz |
ita | イタリア語 | tesseract-2.00.ita.tar.gz |
nld | オランダ語; フランドル語 | tesseract-2.00.nld.tar.gz |
por | ポルトガル語 | tesseract-2.01.por.tar.gz |
spa | スペイン語; カスティーリャ語 | tesseract-2.00.spa.tar.gz |
vie | ベトナム語 | tesseract-2.01.vie.tar.gz |
traineddata ファイルの形式
各言語のtraineddata
ファイルは、Tesseract固有のフォーマットのアーカイブファイルです。これには、Tesseract OCRプロセスに必要な複数の非圧縮コンポーネントファイルが含まれています。プログラムcombine_tessdata
は、これらのコンポーネントファイルからtessdata
ファイルを作成するために使用され、以下の例のように再びそれらを抽出することもできます。
2016年11月以前の4.0.0以前のフォーマット(LSTMモデルとレガシーモデルの両方を含む)
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521