バージョン4.00以降のTraineddataファイル

Googleでトレーニングされた公式の.traineddataファイルのセットが3つあります。これらはtesseractバージョン4.00以降に対応しており、3つの別々のリポジトリで提供されています。

tessdata_fast (2017年9月) 速度と精度のバランスが最適（コストパフォーマンスが良い）、Integerモデル。
tessdata_best (2017年9月) Googleの評価データで最高の結果、速度は遅い、Floatモデル。ファインチューニングトレーニングのベースとして使用できる唯一のモデルです。
tessdata (2016年11月および2017年9月) これらには、2016年のレガシーTesseractモデルが含まれています。LSTMモデルは、tessdata_best LSTMモデルのIntegerバージョンで更新されています。（ヒンディー語、アラビア語などのCubeベースのレガシーTesseractモデルは削除されています）。

tessdata_bestおよびtessdata_fastリポジトリのtraineddataファイルを使用する場合は、新しいLSTMベースのOCRエンジン（–oem 1）のみがサポートされます。レガシーTesseractエンジン（–oem 0）はこれらのファイルではサポートされていません。そのため、Tesseractのoemモード '0' と '2' は機能しません。

特別なデータファイル
最新のデータファイル - 2017年9月
バージョン4.00のデータファイル - 2016年11月
traineddataファイルの形式

特別なデータファイル

言語コード	説明	4.x/3.0x traineddata
osd	方向とスクリプトの検出	osd.traineddata
equ	数式/方程式の検出	equ.traineddata

注記：これらの2つのデータファイルは、以前のバージョンのTesseractと互換性があります。osdはバージョン3.01以降と互換性があり、equはバージョン3.02以降と互換性があります。

更新されたデータファイル（2017年9月15日）

GitHub上に3つの別々のリポジトリに.traineddataファイルのセットが3つあります。これらはTesseract 4.0x+および5.0.0.Alphaと互換性があります。

	トレーニング済みモデル	速度	精度	レガシーサポート	再トレーニング可能
tessdata	レガシー + LSTM (整数化されたtessdata-best)	tessdata-bestより高速	tessdata-bestよりわずかに精度が低い	はい	いいえ
tessdata-best	LSTMのみ（langdataに基づく）	最遅	最も正確	いいえ	はい
tessdata-fast	tessdata-bestより小さなネットワークの整数化されたLSTM	最速	最も精度が低い	いいえ	いいえ

ほとんどのユーザーはtessdata_fastを必要とし、Linuxディストリビューションの一部として出荷されるものです。

tessdata_bestは、わずかに高い精度のために速度を犠牲にしても構わないユーザー向けです。また、高度なユーザーによる特定の再トレーニングシナリオで使用できる唯一のファイルセットでもあります。

tessdataの3番目のセットは、レガシー認識器をサポートする唯一のセットです。2016年11月の4.00ファイルには、レガシーモデルと古いLSTMモデルの両方が含まれています。tessdataの現在のファイルセットには、レガシーモデルと新しいLSTMモデル（tessdata_bestの4.00.00アルファモデルの整数バージョン）が含まれています。

注記：tessdata_bestおよびtessdata_fastリポジトリの新しいモデルを使用する場合は、新しいLSTMベースのOCRエンジンのみがサポートされます。レガシーエンジンはこれらのファイルではサポートされていません。そのため、Tesseractのoemモード '0' と '2' は機能しません。

バージョン4.00のデータファイル（2016年11月29日）

tessdataタグ付き4.0.0には、Integerバージョンのtessdata_best LSTMモデルで更新された2017年9月のモデルが含まれています。このtraineddataファイルセットは、–oem 0によるレガシー認識器と、–oem 1によるLSTMモデルの両方をサポートしています。

tessdataタグ付き4.00には、2016年のモデルが含まれています。個々の言語ファイルは、下の表にリンクされています。

注記：kurデータファイルは、3.04から更新されていません。Frakturには、tessdata_fastまたはtessdata_bestリポジトリの新しいデータファイルを使用してください。

言語コード	言語	4.0 traineddata
afr	アフリカーンス語	afr.traineddata
amh	アムハラ語	amh.traineddata
ara	アラビア語	ara.traineddata
asm	アッサム語	asm.traineddata
aze	アゼルバイジャン語	aze.traineddata
aze_cyrl	アゼルバイジャン語 - キリル文字	aze_cyrl.traineddata
bel	ベラルーシ語	bel.traineddata
ben	ベンガル語	ben.traineddata
bod	チベット語	bod.traineddata
bos	ボスニア語	bos.traineddata
bul	ブルガリア語	bul.traineddata
cat	カタルーニャ語; バレンシア語	cat.traineddata
ceb	セブアノ語	ceb.traineddata
ces	チェコ語	ces.traineddata
chi_sim	中国語 - 簡体字	chi_sim.traineddata
chi_tra	中国語 - 繁体字	chi_tra.traineddata
chr	チェロキー語	chr.traineddata
cym	ウェールズ語	cym.traineddata
dan	デンマーク語	dan.traineddata
deu	ドイツ語	deu.traineddata
dzo	ゾンカ語	dzo.traineddata
ell	ギリシャ語、現代ギリシャ語 (1453-)	ell.traineddata
eng	英語	eng.traineddata
enm	英語、中英語 (1100-1500)	enm.traineddata
epo	エスペラント語	epo.traineddata
est	エストニア語	est.traineddata
eus	バスク語	eus.traineddata
fas	ペルシア語	fas.traineddata
fin	フィンランド語	fin.traineddata
fra	フランス語	fra.traineddata
frk	ドイツ語フラクトゥール体	frk.traineddata
frm	フランス語、中世フランス語 (約1400-1600)	frm.traineddata
gle	アイルランド語	gle.traineddata
glg	ガリシア語	glg.traineddata
grc	ギリシャ語、古代ギリシャ語 (-1453)	grc.traineddata
guj	グジャラート語	guj.traineddata
hat	ハイチ語; ハイチ・クレオール語	hat.traineddata
heb	ヘブライ語	heb.traineddata
hin	ヒンディー語	hin.traineddata
hrv	クロアチア語	hrv.traineddata
hun	ハンガリー語	hun.traineddata
iku	イヌクティトゥット語	iku.traineddata
ind	インドネシア語	ind.traineddata
isl	アイスランド語	isl.traineddata
ita	イタリア語	ita.traineddata
ita_old	イタリア語 - 古イタリア語	ita_old.traineddata
jav	ジャワ語	jav.traineddata
jpn	日本語	jpn.traineddata
kan	カンナダ語	kan.traineddata
kat	グルジア語	kat.traineddata
kat_old	グルジア語 - 古グルジア語	kat_old.traineddata
kaz	カザフ語	kaz.traineddata
khm	クメール語	khm.traineddata
kir	キルギス語	kir.traineddata
kor	韓国語	kor.traineddata
kur	クルド語	kur.traineddata
lao	ラオ語	lao.traineddata
lat	ラテン語	lat.traineddata
lav	ラトビア語	lav.traineddata
lit	リトアニア語	lit.traineddata
mal	マラヤーラム語	mal.traineddata
mar	マラティ語	mar.traineddata
mkd	マケドニア語	mkd.traineddata
mlt	マルタ語	mlt.traineddata
msa	マレー語	msa.traineddata
mya	ビルマ語	mya.traineddata
nep	ネパール語	nep.traineddata
nld	オランダ語; フラマン語	nld.traineddata
nor	ノルウェー語	nor.traineddata
ori	オリヤー語	ori.traineddata
pan	パンジャーブ語	pan.traineddata
pol	ポーランド語	pol.traineddata
por	ポルトガル語	por.traineddata
pus	パシュトー語	pus.traineddata
ron	ルーマニア語; モルダビア語; モルドバ語	ron.traineddata
rus	ロシア語	rus.traineddata
san	サンスクリット語	san.traineddata
sin	シンハラ語	sin.traineddata
slk	スロバキア語	slk.traineddata
slv	スロベニア語	slv.traineddata
spa	スペイン語; カスティーリャ語	spa.traineddata
spa_old	スペイン語; カスティーリャ語 - 古スペイン語	spa_old.traineddata
sqi	アルバニア語	sqi.traineddata
srp	セルビア語	srp.traineddata
srp_latn	セルビア語 - ラテン文字	srp_latn.traineddata
swa	スワヒリ語	swa.traineddata
swe	スウェーデン語	swe.traineddata
syr	シリアック語	syr.traineddata
tam	タミル語	tam.traineddata
tel	テルグ語	tel.traineddata
tgk	タジク語	tgk.traineddata
tgl	タガログ語	tgl.traineddata
tha	タイ語	tha.traineddata
tir	ティグリニャ語	tir.traineddata
tur	トルコ語	tur.traineddata
uig	ウイグル語	uig.traineddata
ukr	ウクライナ語	ukr.traineddata
urd	ウルドゥー語	urd.traineddata
uzb	ウズベク語	uzb.traineddata
uzb_cyrl	ウズベク語 - キリル文字	uzb_cyrl.traineddata
vie	ベトナム語	vie.traineddata
yid	イディッシュ語	yid.traineddata

traineddataファイルの形式

各言語のtraineddataファイルは、Tesseract固有の形式のアーカイブファイルです。Tesseract OCRプロセスに必要な、いくつかの圧縮されていないコンポーネントファイルが含まれています。combine_tessdataプログラムを使用して、コンポーネントファイルからtessdataファイルを作成し、次の例のように再度抽出することもできます。

2016年11月の4.0.0以前の形式（LSTMモデルとレガシーモデルの両方）

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521

4.00.00alpha LSTMのみの形式

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517

圧縮traineddataファイルの提案

Tesseractのアーカイブ形式を、圧縮にも対応できる標準的なアーカイブ形式に置き換えるための提案がいくつかあります。[tesseract-devフォーラムでの議論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip)では、2014年には既にZIP形式が提案されていました。

2017年には、実験的な実装がプルリクエストとして提供されました。