コンテンツへスキップ

特殊データファイル

言語コード 説明 4.0/3.0x traineddata
osd 方向とスクリプトの検出 osd.traineddata
equ 数式/方程式の検出 equ.traineddata

注記: これら2つのデータファイルは、以前のバージョンの Tesseract と互換性があります。osd はバージョン 3.01 以降と互換性があり、equ はバージョン 3.02 以降と互換性があります。

バージョン 3.04/3.05 用データファイル

注記: アラビア語とヒンディー語には、traineddata ファイルとCube データファイルの両方が必要です。

言語コード 言語 3.04 traineddata
afr アフリカーンス語 afr.traineddata
amh アムハラ語 amh.traineddata
ara アラビア語 ara.traineddata
asm アッサム語 asm.traineddata
aze アゼルバイジャン語 aze.traineddata
aze_cyrl アゼルバイジャン語 - キリル文字 aze_cyrl.traineddata
bel ベラルーシ語 bel.traineddata
ben ベンガル語 ben.traineddata
bod チベット語 bod.traineddata
bos ボスニア語 bos.traineddata
bul ブルガリア語 bul.traineddata
cat カタルーニャ語; バレンシア語 cat.traineddata
ceb セブアノ語 ceb.traineddata
ces チェコ語 ces.traineddata
chi_sim 中国語 - 簡体字 chi_sim.traineddata
chi_tra 中国語 - 繁体字 chi_tra.traineddata
chr チェロキー語 chr.traineddata
cym ウェールズ語 cym.traineddata
dan デンマーク語 dan.traineddata
deu ドイツ語 deu.traineddata
dzo ゾンカ語 dzo.traineddata
ell ギリシャ語、現代ギリシャ語 (1453-) ell.traineddata
eng 英語 eng.traineddata
enm 英語、中英語 (1100-1500) enm.traineddata
epo エスペラント語 epo.traineddata
est エストニア語 est.traineddata
eus バスク語 eus.traineddata
fas ペルシャ語 fas.traineddata
fin フィンランド語 fin.traineddata
fra フランス語 fra.traineddata
frk フランク語 frk.traineddata
frm フランス語、中世フランス語 (約1400-1600) frm.traineddata
gle アイルランド語 gle.traineddata
glg ガリシア語 glg.traineddata
grc ギリシャ語、古代ギリシャ語 (-1453) grc.traineddata
guj グジャラート語 guj.traineddata
hat ハイチ語; ハイチ・クレオール語 hat.traineddata
heb ヘブライ語 heb.traineddata
hin ヒンディー語 hin.traineddata
hrv クロアチア語 hrv.traineddata
hun ハンガリー語 hun.traineddata
iku イヌクティトゥト語 iku.traineddata
ind インドネシア語 ind.traineddata
isl アイスランド語 isl.traineddata
ita イタリア語 ita.traineddata
ita_old イタリア語 - 古イタリア語 ita_old.traineddata
jav ジャワ語 jav.traineddata
jpn 日本語 jpn.traineddata
kan カンナダ語 kan.traineddata
kat グルジア語 kat.traineddata
kat_old グルジア語 - 古グルジア語 kat_old.traineddata
kaz カザフ語 kaz.traineddata
khm クメール語 khm.traineddata
kir キルギス語 kir.traineddata
kor 韓国語 kor.traineddata
kur クルド語 kur.traineddata
lao ラオ語 lao.traineddata
lat ラテン語 lat.traineddata
lav ラトビア語 lav.traineddata
lit リトアニア語 lit.traineddata
mal マラヤーラム語 mal.traineddata
mar マラティ語 mar.traineddata
mkd マケドニア語 mkd.traineddata
mlt マルタ語 mlt.traineddata
msa マレー語 msa.traineddata
mya ビルマ語 mya.traineddata
nep ネパール語 nep.traineddata
nld オランダ語; フランドル語 nld.traineddata
nor ノルウェー語 nor.traineddata
ori オリヤー語 ori.traineddata
pan パンジャーブ語 pan.traineddata
pol ポーランド語 pol.traineddata
por ポルトガル語 por.traineddata
pus パシュトー語 pus.traineddata
ron ルーマニア語; モルダビア語; モルドバ語 ron.traineddata
rus ロシア語 rus.traineddata
san サンスクリット語 san.traineddata
sin シンハラ語 sin.traineddata
slk スロバキア語 slk.traineddata
slv スロベニア語 slv.traineddata
spa スペイン語; カスティーリャ語 spa.traineddata
spa_old スペイン語; カスティーリャ語 - 古スペイン語 spa_old.traineddata
sqi アルバニア語 sqi.traineddata
srp セルビア語 srp.traineddata
srp_latn セルビア語 - ラテン文字 srp_latn.traineddata
swa スワヒリ語 swa.traineddata
swe スウェーデン語 swe.traineddata
syr シリア語 syr.traineddata
tam タミル語 tam.traineddata
tel テルグ語 tel.traineddata
tgk タジク語 tgk.traineddata
tgl タガログ語 tgl.traineddata
tha タイ語 tha.traineddata
tir ティグリニャ語 tir.traineddata
tur トルコ語 tur.traineddata
uig ウイグル語 uig.traineddata
ukr ウクライナ語 ukr.traineddata
urd ウルドゥー語 urd.traineddata
uzb ウズベク語 uzb.traineddata
uzb_cyrl ウズベク語 - キリル文字 uzb_cyrl.traineddata
vie ベトナム語 vie.traineddata
yid イディッシュ語 yid.traineddata

バージョン 3.04/3.05 用 Cube データファイル

Tesseract 3.0x では、アラビア語とヒンディー語は Cube OCR エンジンを使用します。.traineddata ファイルと同じフォルダに Cube ファイルをダウンロードして移動する必要があります。

Tesseract 4.0 では、Cube OCR エンジンがコードベースから削除されたため、4.0 以降のバージョンを使用する場合は、これらのファイルは必要ありません。

ヒンディー語
hin.cube.bigramshin.cube.foldhin.cube.lmhin.cube.nnhin.cube.paramshin.cube.word-freqhin.tesseract_cube.nn

アラビア語
ara.cube.bigramsara.cube.foldara.cube.lmara.cube.nnara.cube.paramsara.cube.word-freqara.cube.sizeara.tesseract_cube.nn

Fraktur データファイル

これらのデータファイルは、@paalberti によって以前のバージョンの Tesseract 用に作成されました。dan_frakdeu_frak、およびswe_frak はバージョン 3.00 用に、slk_frak は 3.01 用に作成されました。これらのファイルのアップデートは、paalberti/tesseract-dan-fraktur で入手できます。

言語コード 言語 3.0x traineddata
dan_frak デンマーク語 - Fraktur dan_frak.traineddata
deu_frak ドイツ語 - Fraktur deu_frak.traineddata
slk_frak スロバキア語 - Fraktur slk_frak.traineddata
swe_frak スウェーデン語 - Fraktur swe-frak.traineddata

バージョン 3.02 用データファイル

言語コード 言語 3.02 traineddata
afr アフリカーンス語 tesseract-ocr-3.02.afr.tar.gz
ara アラビア語 tesseract-ocr-3.02.ara.tar.gz
aze アゼルバイジャン語 tesseract-ocr-3.02.aze.tar.gz
bel ベラルーシ語 tesseract-ocr-3.02.bel.tar.gz
ben ベンガル語 tesseract-ocr-3.02.ben.tar.gz
bul ブルガリア語 tesseract-ocr-3.02.bul.tar.gz
cat カタルーニャ語; バレンシア語 tesseract-ocr-3.02.cat.tar.gz
ces チェコ語 tesseract-ocr-3.02.ces.tar.gz
chi_sim 中国語 - 簡体字 tesseract-ocr-3.02.chi_sim.tar.gz
chi_tra 中国語 - 繁体字 tesseract-ocr-3.02.chi_tra.tar.gz
chr チェロキー語 tesseract-ocr-3.02.chr.tar.gz
dan デンマーク語 tesseract-ocr-3.02.dan.tar.gz
deu ドイツ語 tesseract-ocr-3.02.deu.tar.gz
ell ギリシャ語、現代ギリシャ語 (1453-) tesseract-ocr-3.02.ell.tar.gz
eng 英語 tesseract-ocr-3.02.eng.tar.gz
enm 英語、中英語 (1100-1500) tesseract-ocr-3.02.enm.tar.gz
epo エスペラント語 tesseract-ocr-3.02.epo.tar.gz
est エストニア語 tesseract-ocr-3.02.est.tar.gz
eus バスク語 tesseract-ocr-3.02.eus.tar.gz
fin フィンランド語 tesseract-ocr-3.02.fin.tar.gz
fra フランス語 tesseract-ocr-3.02.fra.tar.gz
frk フランク語 tesseract-ocr-3.02.frk.tar.gz
frm フランス語、中世フランス語 (約1400-1600) tesseract-ocr-3.02.frm.tar.gz
glg ガリシア語 tesseract-ocr-3.02.glg.tar.gz
grc ギリシャ語、古代ギリシャ語 (-1453) tesseract-ocr-3.02.grc.tar.gz
heb ヘブライ語 tesseract-ocr-3.02.heb.tar.gz
hin ヒンディー語 tesseract-ocr-3.02.hin.tar.gz
hrv クロアチア語 tesseract-ocr-3.02.hrv.tar.gz
hun ハンガリー語 tesseract-ocr-3.02.hun.tar.gz
ind インドネシア語 tesseract-ocr-3.02.ind.tar.gz
isl アイスランド語 tesseract-ocr-3.02.isl.tar.gz
ita イタリア語 tesseract-ocr-3.02.ita.tar.gz
ita_old イタリア語 - 古イタリア語 tesseract-ocr-3.02.ita_old.tar.gz
jpn 日本語 tesseract-ocr-3.02.jpn.tar.gz
kan カンナダ語 tesseract-ocr-3.02.kan.tar.gz
kor 韓国語 tesseract-ocr-3.02.kor.tar.gz
lav ラトビア語 tesseract-ocr-3.02.lav.tar.gz
lit リトアニア語 tesseract-ocr-3.02.lit.tar.gz
mal マラヤーラム語 tesseract-ocr-3.02.mal.tar.gz
mkd マケドニア語 tesseract-ocr-3.02.mkd.tar.gz
mlt マルタ語 tesseract-ocr-3.02.mlt.tar.gz
msa マレー語 tesseract-ocr-3.02.msa.tar.gz
nld オランダ語; フランドル語 tesseract-ocr-3.02.nld.tar.gz
nor ノルウェー語 tesseract-ocr-3.02.nor.tar.gz
pol ポーランド語 tesseract-ocr-3.02.pol.tar.gz
por ポルトガル語 tesseract-ocr-3.02.por.tar.gz
ron ルーマニア語; モルダビア語; モルドバ語 tesseract-ocr-3.02.ron.tar.gz
rus ロシア語 tesseract-ocr-3.02.rus.tar.gz
slk スロバキア語 tesseract-ocr-3.02.slk.tar.gz
slv スロベニア語 tesseract-ocr-3.02.slv.tar.gz
spa スペイン語; カスティーリャ語 tesseract-ocr-3.02.spa.tar.gz
spa_old スペイン語; カスティーリャ語 - 古スペイン語 tesseract-ocr-3.02.spa_old.tar.gz
sqi アルバニア語 tesseract-ocr-3.02.sqi.tar.gz
srp セルビア語 tesseract-ocr-3.02.srp.tar.gz
swa スワヒリ語 tesseract-ocr-3.02.swa.tar.gz
swe スウェーデン語 tesseract-ocr-3.02.swe.tar.gz
tam タミル語 tesseract-ocr-3.02.tam.tar.gz
tel テルグ語 tesseract-ocr-3.02.tel.tar.gz
tgl タガログ語 tesseract-ocr-3.02.tgl.tar.gz
tha タイ語 tesseract-ocr-3.02.tha.tar.gz
tur トルコ語 tesseract-ocr-3.02.tur.tar.gz
ukr ウクライナ語 tesseract-ocr-3.02.ukr.tar.gz
vie ベトナム語 tesseract-ocr-3.02.vie.tar.gz

バージョン 2.0x 用データファイル

言語コード 言語 2.0x traineddata
deu ドイツ語 tesseract-2.00.deu.tar.gz
deu-f ドイツ語 - Fraktur tesseract-2.01.deu-f.tar.gz
eng 英語 tesseract-2.00.eng.tar.gz
eus バスク語 tesseract-2.04-eus.tar.gz
fra フランス語 tesseract-2.00.fra.tar.gz
ita イタリア語 tesseract-2.00.ita.tar.gz
nld オランダ語; フランドル語 tesseract-2.00.nld.tar.gz
por ポルトガル語 tesseract-2.01.por.tar.gz
spa スペイン語; カスティーリャ語 tesseract-2.00.spa.tar.gz
vie ベトナム語 tesseract-2.01.vie.tar.gz

traineddata ファイルの形式

各言語のtraineddataファイルは、Tesseract固有のフォーマットのアーカイブファイルです。これには、Tesseract OCRプロセスに必要な複数の非圧縮コンポーネントファイルが含まれています。プログラムcombine_tessdataは、これらのコンポーネントファイルからtessdataファイルを作成するために使用され、以下の例のように再びそれらを抽出することもできます。

2016年11月以前の4.0.0以前のフォーマット(LSTMモデルとレガシーモデルの両方を含む)

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521