Tesseract ユーザーマニュアル

このユーザーマニュアルは Tesseract バージョン 5.x 向けです。バージョン 4.x.x、3.05.02 およびそれ以前のバージョンについては、古いバージョンのドキュメントを参照してください。

Tesseract ユーザーマニュアル

はじめに

Tesseract は、テキスト認識 (OCR) エンジンであり、Apache 2.0 ライセンスの下で利用可能なオープンソースです。

メジャーバージョン 5 は現在の安定バージョンであり、2021年11月30日の 5.0.0 のリリースから始まりました。
新しいマイナーバージョンおよびバグフィックスバージョンは、GitHub から入手できます。
最新のソースコードは、GitHub の main ブランチから入手できます。未解決の問題は Issue トラッカー、計画ドキュメントで見つけることができます。

Tesseract は、コマンドラインから直接使用するか、プログラマー向けには、API を使用して、画像から印刷されたテキストを抽出できます。幅広い言語をサポートしています。Tesseract には組み込みの GUI はありませんが、サードパーティページから入手できるものがいくつかあります。Tesseract 用の外部ツール、ラッパー、トレーニングプロジェクトは、アドオンにリストされています。

Tesseract は、Apache License 2.0 の条件の下で、独自のプロジェクトで使用できます。完全な機能を備えた API があり、Android や iPhone を含むさまざまなターゲット向けにコンパイルできます。それを使って何ができたかのサンプルについては、サードパーティページとアドオンページを参照してください。

質問がある場合は、まずドキュメント、特に FAQ を読んで、問題がそこで対処されているかどうかを確認してください。そうでない場合は、Issue リスト、Tesseract ユーザーフォーラムを検索し、それでも必要なものが見つからない場合は、Tesseract ユーザーフォーラム Google グループで質問してください。

Tesseract はフリーソフトウェアであるため、協力して手伝いたい場合は、ぜひそうしてください。バグを見つけて自分で修正した場合は、Issue リストのバグレポートにパッチを添付するのが最善です。

リリースと変更履歴

LSTM を使用した Tesseract

Tesseract 4.0 では、LSTM ニューラルネットワークに基づいた新しい OCR エンジンが追加されました。 100 以上の言語と 35 以上のスクリプトで利用できる公式言語モデルデータを使用して、x86/Linux で正常に動作します。詳細については、4.0x-Changelog を参照してください。

5.x.x

ソースコード

Tesseract 5.x.x のソースコードは、リポジトリの main ブランチで入手できます。main ブランチは、C++ コードの近代化により 4.x リリースとの API 互換性がなくなったため、5.0.0 のセマンティックバージョニングを使用しています。

バイナリ

バイナリは以下から入手できます

学習済みデータファイル

さまざまな種類のモデルの詳細については、データファイルを参照してください。

バージョン 4.00 のモデルファイルは、tessdata タグ 4.00 から入手できます。これは 2016 年 11 月のモデルが含まれています。個々の言語ファイルへのリンクは、次のリンクから入手できます。

tessdata 4.00 2016年11月

バージョン 4.0.0 以降のモデルファイルは、tessdata タグ 4.0.0 から入手できます。これには、tessdata_best LSTM モデルの整数バージョンで更新された 2017 年 9 月のレガシーモデルが含まれています。この学習済みデータファイルのセットは、--oem 0 を使用したレガシー認識器と、--oem 1 を使用した LSTM モデルの両方をサポートしています。これらのモデルは、次の Github リポジトリから入手できます。

tessdata

Google でトレーニングされた 公式 学習済みデータのセットがさらに 2 つ、次の Github リポジトリで利用できるようになりました。これらにはレガシーモデルはなく、--oem 1 で使用可能な LSTM モデルのみが含まれています。

バージョン 4.0.0 で上記にリストされているのと同じ言語モデル学習済みデータファイルは、Tesseract 5.x.x で使用できます。これらは以下から入手できます

コンパイルとインストール

使い方

API の例

技術情報

過去の技術ドキュメント
Tesseract の API/ABI 変更レビュー
マニュアルページ
Doxygen によって生成されたソースドキュメント
Tesseract のニューラルネットワーク
VGSL 仕様
Tensorflow からの VGSL 仕様情報
tessdata_fast モデルのネットワーク仕様
tessdata_best モデルのネットワーク仕様
DAS 2016 チュートリアルスライドスライド #2、#6、#7 には、Tesseract 4.0x への LSTM 統合に関する情報が含まれています。
Tesseract OpenCL - 実験的

Tesseract 5 のためのトレーニング

tesstrain.sh（別名 Tesseract 4 トレーニング）を使用したトレーニングは、サポートされておらず/中止されました。トレーニングには、tesseract-ocr/tesstrain のスクリプトを使用してください。

Tesseract ユーザーマニュアル

Tesseract ドキュメント

Tesseract ユーザーマニュアル

はじめに

リリースと変更履歴

LSTM を使用した Tesseract

5.x.x

ソースコード

バイナリ

学習済みデータファイル

コンパイルとインストール

使い方

API の例

技術情報

Tesseract 5 のためのトレーニング

テスト

外部プロジェクト

古いバージョンのユーザーマニュアル