Tesseract ユーザーマニュアル
このユーザーマニュアルは、Tesseract バージョン 5.x
用です。バージョン 4.x.x
、3.05.02
およびそれ以前のバージョンについては、旧バージョンのドキュメントを参照してください。
はじめに
Tesseract は、テキスト認識 (OCR) エンジンで、Apache 2.0 ライセンスの下で利用可能なオープンソースソフトウェアです。
- メジャーバージョン 5 は現在の安定版であり、5.0.0 のリリース(2021年11月30日)から始まりました。
- 新しいマイナーバージョンとバグ修正バージョンは、GitHub から入手できます。
- 最新のソースコードは、GitHub の main ブランチ から入手できます。未解決の問題は 問題トラッカー にあり、計画ドキュメント も参照できます。
Tesseract は、コマンドライン を介して直接使用するか、(プログラマーの場合)API を使用して画像から印刷されたテキストを抽出できます。それは幅広い言語をサポートしています。Tesseract には組み込みの GUI はありませんが、サードパーティ ページから入手可能なものがいくつかあります。Tesseract の外部ツール、ラッパー、トレーニングプロジェクトは、アドオン の下にリストされています。
Tesseract は、Apache License 2.0 の条件下で、独自のプロジェクトで使用できます。完全機能を備えた API を備えており、Android や iPhone を含むさまざまなターゲットに対してコンパイルできます。サードパーティ と アドオン のページで、これを使用して作成されたサンプルを参照してください。
ご質問がある場合は、まずドキュメント、特にFAQ を読んで、そこで問題が解決されているかどうかを確認してください。そうでない場合は、問題リスト、Tesseract ユーザーフォーラム を検索し、それでも必要なものが見つからない場合は、Tesseract ユーザーフォーラム Google グループ で質問してください。
Tesseract はフリーソフトウェアであるため、協力したい場合は、ぜひご協力ください。バグを見つけ、自分で修正した場合は、問題リスト にパッチを添付するのが最善の方法です。
リリースと変更ログ
LSTM を使用した Tesseract
Tesseract 4.0 は、LSTM ニューラルネットワークに基づく新しい OCR エンジンを追加しました。これは、公式言語モデルデータが 100 以上の言語と 35 以上のスクリプト で利用可能な x86/Linux でうまく機能します。4.0x-Changelog で詳細をご覧ください。
5.x.x
ソースコード
Tesseract 5.x.x のソースコードは、リポジトリ の main
ブランチにあります。main
ブランチは、C++ コードの近代化により 4.x リリースとの API の互換性がなくなったため、5.0.0
semver バージョンを使用しています。
バイナリ
バイナリは以下から入手できます。
Traineddata ファイル
さまざまな種類のモデルの詳細については、データファイルを参照してください。
バージョン 4.00
のモデルファイルは、tessdata タグ付き 4.00 から入手できます。2016年11月のモデルが含まれています。個々の言語ファイルへのリンクは、次のリンクから入手できます。
バージョン 4.0.0
以降のモデルファイルは、tessdata タグ付き 4.0.0 から入手できます。これには、tessdata_best
LSTM モデルの整数バージョンで更新された、2017年9月のレガシーモデルが含まれています。この traineddata ファイルセットは、--oem 0
を使用したレガシー認識器と、--oem 1
を使用した LSTM モデルの両方をサポートしています。これらのモデルは、次の GitHub リポジトリから入手できます。
Google でトレーニングされた、さらに2つの 公式
traineddata セットが、次の GitHub リポジトリで公開されています。これらにはレガシーモデルが含まれておらず、--oem 1
で使用できる LSTM モデルのみが含まれています。
バージョン 4.0.0
の上記と同じ言語モデル traineddata ファイルは、Tesseract 5.x.x
で使用できます。これらは以下から入手できます。
コンパイルとインストール
使用方法
API 例
技術情報
- 過去の技術ドキュメント
- Tesseract の API/ABI 変更レビュー
- マニュアルページ
- Doxygen で生成されたソースドキュメント
- Tesseract のニューラルネットワーク
- VGSL 仕様
- Tensorflow からの VGSL 仕様情報
- tessdata_fast モデルのネットワーク仕様
- tessdata_best モデルのネットワーク仕様
- DAS 2016 チュートリアルスライド スライド #2、#6、#7 には、Tesseract 4.0x への LSTM の統合に関する情報が含まれています。
- Tesseract OpenCL - 試験段階
Tesseract 5 のトレーニング
tesstrain.sh
(別名 Tesseract 4 トレーニング)を使用したトレーニングは、サポートされていません/廃止されました。トレーニングには、tesseract-ocr/tesstrain のスクリプトを使用してください。
- 単一行画像とグラウンドトゥルース転写から make を使用して Tesseract LSTM をトレーニングする
- LSTM Tesseract 5 のトレーニング - Ray Smith による詳細な Tesseract 4 チュートリアルとガイドに基づいています