Tesseract ユーザーマニュアル
このユーザーマニュアルは Tesseract バージョン 5.x
向けです。バージョン 4.x.x
、3.05.02
およびそれ以前のバージョンについては、古いバージョンのドキュメントを参照してください。
はじめに
Tesseract は、テキスト認識 (OCR) エンジンであり、Apache 2.0 ライセンスの下で利用可能なオープンソースです。
- メジャーバージョン 5 は現在の安定バージョンであり、2021年11月30日の 5.0.0 のリリースから始まりました。
- 新しいマイナーバージョンおよびバグフィックスバージョンは、GitHub から入手できます。
- 最新のソースコードは、GitHub の main ブランチから入手できます。未解決の問題は Issue トラッカー、計画ドキュメントで見つけることができます。
Tesseract は、コマンドラインから直接使用するか、プログラマー向けには、API を使用して、画像から印刷されたテキストを抽出できます。幅広い言語をサポートしています。Tesseract には組み込みの GUI はありませんが、サードパーティページから入手できるものがいくつかあります。Tesseract 用の外部ツール、ラッパー、トレーニングプロジェクトは、アドオンにリストされています。
Tesseract は、Apache License 2.0 の条件の下で、独自のプロジェクトで使用できます。完全な機能を備えた API があり、Android や iPhone を含むさまざまなターゲット向けにコンパイルできます。それを使って何ができたかのサンプルについては、サードパーティページと アドオンページを参照してください。
質問がある場合は、まず ドキュメント、特に FAQ を読んで、問題がそこで対処されているかどうかを確認してください。そうでない場合は、Issue リスト、Tesseract ユーザーフォーラムを検索し、それでも必要なものが見つからない場合は、Tesseract ユーザーフォーラム Google グループで質問してください。
Tesseract はフリーソフトウェアであるため、協力して手伝いたい場合は、ぜひそうしてください。バグを見つけて自分で修正した場合は、Issue リストのバグレポートにパッチを添付するのが最善です。
リリースと変更履歴
LSTM を使用した Tesseract
Tesseract 4.0 では、LSTM ニューラルネットワークに基づいた新しい OCR エンジンが追加されました。 100 以上の言語と 35 以上のスクリプトで利用できる公式言語モデルデータを使用して、x86/Linux で正常に動作します。詳細については、4.0x-Changelog を参照してください。
5.x.x
ソースコード
Tesseract 5.x.x のソースコードは、リポジトリの main
ブランチで入手できます。main
ブランチは、C++ コードの近代化により 4.x リリースとの API 互換性がなくなったため、5.0.0
のセマンティックバージョニングを使用しています。
バイナリ
バイナリは以下から入手できます
学習済みデータファイル
さまざまな種類のモデルの詳細については、データファイルを参照してください。
バージョン 4.00
のモデルファイルは、tessdata タグ 4.00 から入手できます。これは 2016 年 11 月のモデルが含まれています。個々の言語ファイルへのリンクは、次のリンクから入手できます。
バージョン 4.0.0
以降のモデルファイルは、tessdata タグ 4.0.0 から入手できます。これには、tessdata_best
LSTM モデルの整数バージョンで更新された 2017 年 9 月のレガシーモデルが含まれています。この学習済みデータファイルのセットは、--oem 0
を使用したレガシー認識器と、--oem 1
を使用した LSTM モデルの両方をサポートしています。これらのモデルは、次の Github リポジトリから入手できます。
Google でトレーニングされた 公式
学習済みデータのセットがさらに 2 つ、次の Github リポジトリで利用できるようになりました。これらにはレガシーモデルはなく、--oem 1
で使用可能な LSTM モデルのみが含まれています。
バージョン 4.0.0
で上記にリストされているのと同じ言語モデル学習済みデータファイルは、Tesseract 5.x.x
で使用できます。これらは以下から入手できます
コンパイルとインストール
使い方
API の例
技術情報
- 過去の技術ドキュメント
- Tesseract の API/ABI 変更レビュー
- マニュアルページ
- Doxygen によって生成されたソースドキュメント
- Tesseract のニューラルネットワーク
- VGSL 仕様
- Tensorflow からの VGSL 仕様情報
- tessdata_fast モデルのネットワーク仕様
- tessdata_best モデルのネットワーク仕様
- DAS 2016 チュートリアルスライド スライド #2、#6、#7 には、Tesseract 4.0x への LSTM 統合に関する情報が含まれています。
- Tesseract OpenCL - 実験的
Tesseract 5 のためのトレーニング
tesstrain.sh
(別名 Tesseract 4 トレーニング)を使用したトレーニングは、サポートされておらず/中止されました。トレーニングには、tesseract-ocr/tesstrain のスクリプトを使用してください。
- 単一行の画像とグランドトゥルーストランスクリプションから make を使用して Tesseract LSTM をトレーニングします
- LSTM Tesseract 5 のトレーニング - Ray Smith による詳細な Tesseract 4 チュートリアルとガイドに基づいています