tessdoc | Tesseract ドキュメント

特殊データファイル
バージョン 3.04/3.05 用データファイル
バージョン 3.04/3.05 用 Cube データファイル
Fraktur データファイル
バージョン 3.02 用データファイル
バージョン 2.0x 用データファイル
traineddata ファイルの形式

特殊データファイル

言語コード	説明	4.0/3.0x traineddata
osd	方向とスクリプトの検出	osd.traineddata
equ	数式/方程式の検出	equ.traineddata

注記: これら2つのデータファイルは、以前のバージョンの Tesseract と互換性があります。osd はバージョン 3.01 以降と互換性があり、equ はバージョン 3.02 以降と互換性があります。

バージョン 3.04/3.05 用データファイル

注記: アラビア語とヒンディー語には、traineddata ファイルとCube データファイルの両方が必要です。

言語コード	言語	3.04 traineddata
afr	アフリカーンス語	afr.traineddata
amh	アムハラ語	amh.traineddata
ara	アラビア語	ara.traineddata
asm	アッサム語	asm.traineddata
aze	アゼルバイジャン語	aze.traineddata
aze_cyrl	アゼルバイジャン語 - キリル文字	aze_cyrl.traineddata
bel	ベラルーシ語	bel.traineddata
ben	ベンガル語	ben.traineddata
bod	チベット語	bod.traineddata
bos	ボスニア語	bos.traineddata
bul	ブルガリア語	bul.traineddata
cat	カタルーニャ語; バレンシア語	cat.traineddata
ceb	セブアノ語	ceb.traineddata
ces	チェコ語	ces.traineddata
chi_sim	中国語 - 簡体字	chi_sim.traineddata
chi_tra	中国語 - 繁体字	chi_tra.traineddata
chr	チェロキー語	chr.traineddata
cym	ウェールズ語	cym.traineddata
dan	デンマーク語	dan.traineddata
deu	ドイツ語	deu.traineddata
dzo	ゾンカ語	dzo.traineddata
ell	ギリシャ語、現代ギリシャ語 (1453-)	ell.traineddata
eng	英語	eng.traineddata
enm	英語、中英語 (1100-1500)	enm.traineddata
epo	エスペラント語	epo.traineddata
est	エストニア語	est.traineddata
eus	バスク語	eus.traineddata
fas	ペルシャ語	fas.traineddata
fin	フィンランド語	fin.traineddata
fra	フランス語	fra.traineddata
frk	フランク語	frk.traineddata
frm	フランス語、中世フランス語 (約1400-1600)	frm.traineddata
gle	アイルランド語	gle.traineddata
glg	ガリシア語	glg.traineddata
grc	ギリシャ語、古代ギリシャ語 (-1453)	grc.traineddata
guj	グジャラート語	guj.traineddata
hat	ハイチ語; ハイチ・クレオール語	hat.traineddata
heb	ヘブライ語	heb.traineddata
hin	ヒンディー語	hin.traineddata
hrv	クロアチア語	hrv.traineddata
hun	ハンガリー語	hun.traineddata
iku	イヌクティトゥト語	iku.traineddata
ind	インドネシア語	ind.traineddata
isl	アイスランド語	isl.traineddata
ita	イタリア語	ita.traineddata
ita_old	イタリア語 - 古イタリア語	ita_old.traineddata
jav	ジャワ語	jav.traineddata
jpn	日本語	jpn.traineddata
kan	カンナダ語	kan.traineddata
kat	グルジア語	kat.traineddata
kat_old	グルジア語 - 古グルジア語	kat_old.traineddata
kaz	カザフ語	kaz.traineddata
khm	クメール語	khm.traineddata
kir	キルギス語	kir.traineddata
kor	韓国語	kor.traineddata
kur	クルド語	kur.traineddata
lao	ラオ語	lao.traineddata
lat	ラテン語	lat.traineddata
lav	ラトビア語	lav.traineddata
lit	リトアニア語	lit.traineddata
mal	マラヤーラム語	mal.traineddata
mar	マラティ語	mar.traineddata
mkd	マケドニア語	mkd.traineddata
mlt	マルタ語	mlt.traineddata
msa	マレー語	msa.traineddata
mya	ビルマ語	mya.traineddata
nep	ネパール語	nep.traineddata
nld	オランダ語; フランドル語	nld.traineddata
nor	ノルウェー語	nor.traineddata
ori	オリヤー語	ori.traineddata
pan	パンジャーブ語	pan.traineddata
pol	ポーランド語	pol.traineddata
por	ポルトガル語	por.traineddata
pus	パシュトー語	pus.traineddata
ron	ルーマニア語; モルダビア語; モルドバ語	ron.traineddata
rus	ロシア語	rus.traineddata
san	サンスクリット語	san.traineddata
sin	シンハラ語	sin.traineddata
slk	スロバキア語	slk.traineddata
slv	スロベニア語	slv.traineddata
spa	スペイン語; カスティーリャ語	spa.traineddata
spa_old	スペイン語; カスティーリャ語 - 古スペイン語	spa_old.traineddata
sqi	アルバニア語	sqi.traineddata
srp	セルビア語	srp.traineddata
srp_latn	セルビア語 - ラテン文字	srp_latn.traineddata
swa	スワヒリ語	swa.traineddata
swe	スウェーデン語	swe.traineddata
syr	シリア語	syr.traineddata
tam	タミル語	tam.traineddata
tel	テルグ語	tel.traineddata
tgk	タジク語	tgk.traineddata
tgl	タガログ語	tgl.traineddata
tha	タイ語	tha.traineddata
tir	ティグリニャ語	tir.traineddata
tur	トルコ語	tur.traineddata
uig	ウイグル語	uig.traineddata
ukr	ウクライナ語	ukr.traineddata
urd	ウルドゥー語	urd.traineddata
uzb	ウズベク語	uzb.traineddata
uzb_cyrl	ウズベク語 - キリル文字	uzb_cyrl.traineddata
vie	ベトナム語	vie.traineddata
yid	イディッシュ語	yid.traineddata

バージョン 3.04/3.05 用 Cube データファイル

Tesseract 3.0x では、アラビア語とヒンディー語は Cube OCR エンジンを使用します。.traineddata ファイルと同じフォルダに Cube ファイルをダウンロードして移動する必要があります。

Tesseract 4.0 では、Cube OCR エンジンがコードベースから削除されたため、4.0 以降のバージョンを使用する場合は、これらのファイルは必要ありません。

ヒンディー語
hin.cube.bigrams、hin.cube.fold、hin.cube.lm、hin.cube.nn、hin.cube.params、hin.cube.word-freq、hin.tesseract_cube.nn

アラビア語
ara.cube.bigrams、ara.cube.fold、ara.cube.lm、ara.cube.nn、ara.cube.params、ara.cube.word-freq、ara.cube.size、ara.tesseract_cube.nn

Fraktur データファイル

これらのデータファイルは、@paalberti によって以前のバージョンの Tesseract 用に作成されました。dan_frak、deu_frak、およびswe_frak はバージョン 3.00 用に、slk_frak は 3.01 用に作成されました。これらのファイルのアップデートは、paalberti/tesseract-dan-fraktur で入手できます。

言語コード	言語	3.0x traineddata
dan_frak	デンマーク語 - Fraktur	dan_frak.traineddata
deu_frak	ドイツ語 - Fraktur	deu_frak.traineddata
slk_frak	スロバキア語 - Fraktur	slk_frak.traineddata
swe_frak	スウェーデン語 - Fraktur	swe-frak.traineddata

バージョン 3.02 用データファイル

言語コード	言語	3.02 traineddata
afr	アフリカーンス語	tesseract-ocr-3.02.afr.tar.gz
ara	アラビア語	tesseract-ocr-3.02.ara.tar.gz
aze	アゼルバイジャン語	tesseract-ocr-3.02.aze.tar.gz
bel	ベラルーシ語	tesseract-ocr-3.02.bel.tar.gz
ben	ベンガル語	tesseract-ocr-3.02.ben.tar.gz
bul	ブルガリア語	tesseract-ocr-3.02.bul.tar.gz
cat	カタルーニャ語; バレンシア語	tesseract-ocr-3.02.cat.tar.gz
ces	チェコ語	tesseract-ocr-3.02.ces.tar.gz
chi_sim	中国語 - 簡体字	tesseract-ocr-3.02.chi_sim.tar.gz
chi_tra	中国語 - 繁体字	tesseract-ocr-3.02.chi_tra.tar.gz
chr	チェロキー語	tesseract-ocr-3.02.chr.tar.gz
dan	デンマーク語	tesseract-ocr-3.02.dan.tar.gz
deu	ドイツ語	tesseract-ocr-3.02.deu.tar.gz
ell	ギリシャ語、現代ギリシャ語 (1453-)	tesseract-ocr-3.02.ell.tar.gz
eng	英語	tesseract-ocr-3.02.eng.tar.gz
enm	英語、中英語 (1100-1500)	tesseract-ocr-3.02.enm.tar.gz
epo	エスペラント語	tesseract-ocr-3.02.epo.tar.gz
est	エストニア語	tesseract-ocr-3.02.est.tar.gz
eus	バスク語	tesseract-ocr-3.02.eus.tar.gz
fin	フィンランド語	tesseract-ocr-3.02.fin.tar.gz
fra	フランス語	tesseract-ocr-3.02.fra.tar.gz
frk	フランク語	tesseract-ocr-3.02.frk.tar.gz
frm	フランス語、中世フランス語 (約1400-1600)	tesseract-ocr-3.02.frm.tar.gz
glg	ガリシア語	tesseract-ocr-3.02.glg.tar.gz
grc	ギリシャ語、古代ギリシャ語 (-1453)	tesseract-ocr-3.02.grc.tar.gz
heb	ヘブライ語	tesseract-ocr-3.02.heb.tar.gz
hin	ヒンディー語	tesseract-ocr-3.02.hin.tar.gz
hrv	クロアチア語	tesseract-ocr-3.02.hrv.tar.gz
hun	ハンガリー語	tesseract-ocr-3.02.hun.tar.gz
ind	インドネシア語	tesseract-ocr-3.02.ind.tar.gz
isl	アイスランド語	tesseract-ocr-3.02.isl.tar.gz
ita	イタリア語	tesseract-ocr-3.02.ita.tar.gz
ita_old	イタリア語 - 古イタリア語	tesseract-ocr-3.02.ita_old.tar.gz
jpn	日本語	tesseract-ocr-3.02.jpn.tar.gz
kan	カンナダ語	tesseract-ocr-3.02.kan.tar.gz
kor	韓国語	tesseract-ocr-3.02.kor.tar.gz
lav	ラトビア語	tesseract-ocr-3.02.lav.tar.gz
lit	リトアニア語	tesseract-ocr-3.02.lit.tar.gz
mal	マラヤーラム語	tesseract-ocr-3.02.mal.tar.gz
mkd	マケドニア語	tesseract-ocr-3.02.mkd.tar.gz
mlt	マルタ語	tesseract-ocr-3.02.mlt.tar.gz
msa	マレー語	tesseract-ocr-3.02.msa.tar.gz
nld	オランダ語; フランドル語	tesseract-ocr-3.02.nld.tar.gz
nor	ノルウェー語	tesseract-ocr-3.02.nor.tar.gz
pol	ポーランド語	tesseract-ocr-3.02.pol.tar.gz
por	ポルトガル語	tesseract-ocr-3.02.por.tar.gz
ron	ルーマニア語; モルダビア語; モルドバ語	tesseract-ocr-3.02.ron.tar.gz
rus	ロシア語	tesseract-ocr-3.02.rus.tar.gz
slk	スロバキア語	tesseract-ocr-3.02.slk.tar.gz
slv	スロベニア語	tesseract-ocr-3.02.slv.tar.gz
spa	スペイン語; カスティーリャ語	tesseract-ocr-3.02.spa.tar.gz
spa_old	スペイン語; カスティーリャ語 - 古スペイン語	tesseract-ocr-3.02.spa_old.tar.gz
sqi	アルバニア語	tesseract-ocr-3.02.sqi.tar.gz
srp	セルビア語	tesseract-ocr-3.02.srp.tar.gz
swa	スワヒリ語	tesseract-ocr-3.02.swa.tar.gz
swe	スウェーデン語	tesseract-ocr-3.02.swe.tar.gz
tam	タミル語	tesseract-ocr-3.02.tam.tar.gz
tel	テルグ語	tesseract-ocr-3.02.tel.tar.gz
tgl	タガログ語	tesseract-ocr-3.02.tgl.tar.gz
tha	タイ語	tesseract-ocr-3.02.tha.tar.gz
tur	トルコ語	tesseract-ocr-3.02.tur.tar.gz
ukr	ウクライナ語	tesseract-ocr-3.02.ukr.tar.gz
vie	ベトナム語	tesseract-ocr-3.02.vie.tar.gz

バージョン 2.0x 用データファイル

言語コード	言語	2.0x traineddata
deu	ドイツ語	tesseract-2.00.deu.tar.gz
deu-f	ドイツ語 - Fraktur	tesseract-2.01.deu-f.tar.gz
eng	英語	tesseract-2.00.eng.tar.gz
eus	バスク語	tesseract-2.04-eus.tar.gz
fra	フランス語	tesseract-2.00.fra.tar.gz
ita	イタリア語	tesseract-2.00.ita.tar.gz
nld	オランダ語; フランドル語	tesseract-2.00.nld.tar.gz
por	ポルトガル語	tesseract-2.01.por.tar.gz
spa	スペイン語; カスティーリャ語	tesseract-2.00.spa.tar.gz
vie	ベトナム語	tesseract-2.01.vie.tar.gz

traineddata ファイルの形式

各言語のtraineddataファイルは、Tesseract固有のフォーマットのアーカイブファイルです。これには、Tesseract OCRプロセスに必要な複数の非圧縮コンポーネントファイルが含まれています。プログラムcombine_tessdataは、これらのコンポーネントファイルからtessdataファイルを作成するために使用され、以下の例のように再びそれらを抽出することもできます。

2016年11月以前の4.0.0以前のフォーマット（LSTMモデルとレガシーモデルの両方を含む）

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521