コンテンツへスキップ

バージョン4.00以降のTraineddataファイル

Googleでトレーニングされた公式の.traineddataファイルのセットが3つあります。これらはtesseractバージョン4.00以降に対応しており、3つの別々のリポジトリで提供されています。

tessdata_bestおよびtessdata_fastリポジトリのtraineddataファイルを使用する場合は、新しいLSTMベースのOCRエンジン(–oem 1)のみがサポートされます。レガシーTesseractエンジン(–oem 0)はこれらのファイルではサポートされていません。そのため、Tesseractのoemモード '0' と '2' は機能しません。

特別なデータファイル

言語コード 説明 4.x/3.0x traineddata
osd 方向とスクリプトの検出 osd.traineddata
equ 数式/方程式の検出 equ.traineddata

注記:これらの2つのデータファイルは、以前のバージョンのTesseractと互換性があります。osdはバージョン3.01以降と互換性があり、equはバージョン3.02以降と互換性があります。

更新されたデータファイル(2017年9月15日)

GitHub上に3つの別々のリポジトリに.traineddataファイルのセットが3つあります。これらはTesseract 4.0x+および5.0.0.Alphaと互換性があります。

  トレーニング済みモデル 速度 精度 レガシーサポート 再トレーニング可能
tessdata レガシー + LSTM (整数化されたtessdata-best) tessdata-bestより高速 tessdata-bestよりわずかに精度が低い はい いいえ
tessdata-best LSTMのみ(langdataに基づく) 最遅 最も正確 いいえ はい
tessdata-fast tessdata-bestより小さなネットワークの整数化されたLSTM 最速 最も精度が低い いいえ いいえ

ほとんどのユーザーはtessdata_fastを必要とし、Linuxディストリビューションの一部として出荷されるものです。

tessdata_bestは、わずかに高い精度のために速度を犠牲にしても構わないユーザー向けです。また、高度なユーザーによる特定の再トレーニングシナリオで使用できる唯一のファイルセットでもあります。

tessdataの3番目のセットは、レガシー認識器をサポートする唯一のセットです。2016年11月の4.00ファイルには、レガシーモデルと古いLSTMモデルの両方が含まれています。tessdataの現在のファイルセットには、レガシーモデルと新しいLSTMモデル(tessdata_bestの4.00.00アルファモデルの整数バージョン)が含まれています。

注記tessdata_bestおよびtessdata_fastリポジトリの新しいモデルを使用する場合は、新しいLSTMベースのOCRエンジンのみがサポートされます。レガシーエンジンはこれらのファイルではサポートされていません。そのため、Tesseractのoemモード '0' と '2' は機能しません。

バージョン4.00のデータファイル(2016年11月29日)

tessdataタグ付き4.0.0には、Integerバージョンのtessdata_best LSTMモデルで更新された2017年9月のモデルが含まれています。このtraineddataファイルセットは、–oem 0によるレガシー認識器と、–oem 1によるLSTMモデルの両方をサポートしています。

tessdataタグ付き4.00には、2016年のモデルが含まれています。個々の言語ファイルは、下の表にリンクされています。

注記kurデータファイルは、3.04から更新されていません。Frakturには、tessdata_fastまたはtessdata_bestリポジトリの新しいデータファイルを使用してください。

言語コード 言語 4.0 traineddata
afr アフリカーンス語 afr.traineddata
amh アムハラ語 amh.traineddata
ara アラビア語 ara.traineddata
asm アッサム語 asm.traineddata
aze アゼルバイジャン語 aze.traineddata
aze_cyrl アゼルバイジャン語 - キリル文字 aze_cyrl.traineddata
bel ベラルーシ語 bel.traineddata
ben ベンガル語 ben.traineddata
bod チベット語 bod.traineddata
bos ボスニア語 bos.traineddata
bul ブルガリア語 bul.traineddata
cat カタルーニャ語; バレンシア語 cat.traineddata
ceb セブアノ語 ceb.traineddata
ces チェコ語 ces.traineddata
chi_sim 中国語 - 簡体字 chi_sim.traineddata
chi_tra 中国語 - 繁体字 chi_tra.traineddata
chr チェロキー語 chr.traineddata
cym ウェールズ語 cym.traineddata
dan デンマーク語 dan.traineddata
deu ドイツ語 deu.traineddata
dzo ゾンカ語 dzo.traineddata
ell ギリシャ語、現代ギリシャ語 (1453-) ell.traineddata
eng 英語 eng.traineddata
enm 英語、中英語 (1100-1500) enm.traineddata
epo エスペラント語 epo.traineddata
est エストニア語 est.traineddata
eus バスク語 eus.traineddata
fas ペルシア語 fas.traineddata
fin フィンランド語 fin.traineddata
fra フランス語 fra.traineddata
frk ドイツ語フラクトゥール体 frk.traineddata
frm フランス語、中世フランス語 (約1400-1600) frm.traineddata
gle アイルランド語 gle.traineddata
glg ガリシア語 glg.traineddata
grc ギリシャ語、古代ギリシャ語 (-1453) grc.traineddata
guj グジャラート語 guj.traineddata
hat ハイチ語; ハイチ・クレオール語 hat.traineddata
heb ヘブライ語 heb.traineddata
hin ヒンディー語 hin.traineddata
hrv クロアチア語 hrv.traineddata
hun ハンガリー語 hun.traineddata
iku イヌクティトゥット語 iku.traineddata
ind インドネシア語 ind.traineddata
isl アイスランド語 isl.traineddata
ita イタリア語 ita.traineddata
ita_old イタリア語 - 古イタリア語 ita_old.traineddata
jav ジャワ語 jav.traineddata
jpn 日本語 jpn.traineddata
kan カンナダ語 kan.traineddata
kat グルジア語 kat.traineddata
kat_old グルジア語 - 古グルジア語 kat_old.traineddata
kaz カザフ語 kaz.traineddata
khm クメール語 khm.traineddata
kir キルギス語 kir.traineddata
kor 韓国語 kor.traineddata
kur クルド語 kur.traineddata
lao ラオ語 lao.traineddata
lat ラテン語 lat.traineddata
lav ラトビア語 lav.traineddata
lit リトアニア語 lit.traineddata
mal マラヤーラム語 mal.traineddata
mar マラティ語 mar.traineddata
mkd マケドニア語 mkd.traineddata
mlt マルタ語 mlt.traineddata
msa マレー語 msa.traineddata
mya ビルマ語 mya.traineddata
nep ネパール語 nep.traineddata
nld オランダ語; フラマン語 nld.traineddata
nor ノルウェー語 nor.traineddata
ori オリヤー語 ori.traineddata
pan パンジャーブ語 pan.traineddata
pol ポーランド語 pol.traineddata
por ポルトガル語 por.traineddata
pus パシュトー語 pus.traineddata
ron ルーマニア語; モルダビア語; モルドバ語 ron.traineddata
rus ロシア語 rus.traineddata
san サンスクリット語 san.traineddata
sin シンハラ語 sin.traineddata
slk スロバキア語 slk.traineddata
slv スロベニア語 slv.traineddata
spa スペイン語; カスティーリャ語 spa.traineddata
spa_old スペイン語; カスティーリャ語 - 古スペイン語 spa_old.traineddata
sqi アルバニア語 sqi.traineddata
srp セルビア語 srp.traineddata
srp_latn セルビア語 - ラテン文字 srp_latn.traineddata
swa スワヒリ語 swa.traineddata
swe スウェーデン語 swe.traineddata
syr シリアック語 syr.traineddata
tam タミル語 tam.traineddata
tel テルグ語 tel.traineddata
tgk タジク語 tgk.traineddata
tgl タガログ語 tgl.traineddata
tha タイ語 tha.traineddata
tir ティグリニャ語 tir.traineddata
tur トルコ語 tur.traineddata
uig ウイグル語 uig.traineddata
ukr ウクライナ語 ukr.traineddata
urd ウルドゥー語 urd.traineddata
uzb ウズベク語 uzb.traineddata
uzb_cyrl ウズベク語 - キリル文字 uzb_cyrl.traineddata
vie ベトナム語 vie.traineddata
yid イディッシュ語 yid.traineddata

traineddataファイルの形式

各言語のtraineddataファイルは、Tesseract固有の形式のアーカイブファイルです。Tesseract OCRプロセスに必要な、いくつかの圧縮されていないコンポーネントファイルが含まれています。combine_tessdataプログラムを使用して、コンポーネントファイルからtessdataファイルを作成し、次の例のように再度抽出することもできます。

2016年11月の4.0.0以前の形式(LSTMモデルとレガシーモデルの両方)

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521

4.00.00alpha LSTMのみの形式

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517

圧縮traineddataファイルの提案

Tesseractのアーカイブ形式を、圧縮にも対応できる標準的なアーカイブ形式に置き換えるための提案がいくつかあります。[tesseract-devフォーラムでの議論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip)では、2014年には既にZIP形式が提案されていました。 2017年には、実験的な実装がプルリクエストとして提供されました。