コンテンツへスキップ

Tesseract ユーザーマニュアル

このユーザーマニュアルは Tesseract バージョン 5.x 向けです。バージョン 4.x.x3.05.02 およびそれ以前のバージョンについては、古いバージョンのドキュメントを参照してください。

はじめに

Tesseract は、テキスト認識 (OCR) エンジンであり、Apache 2.0 ライセンスの下で利用可能なオープンソースです。

Tesseract は、コマンドラインから直接使用するか、プログラマー向けには、API を使用して、画像から印刷されたテキストを抽出できます。幅広い言語をサポートしています。Tesseract には組み込みの GUI はありませんが、サードパーティページから入手できるものがいくつかあります。Tesseract 用の外部ツール、ラッパー、トレーニングプロジェクトは、アドオンにリストされています。

Tesseract は、Apache License 2.0 の条件の下で、独自のプロジェクトで使用できます。完全な機能を備えた API があり、Android や iPhone を含むさまざまなターゲット向けにコンパイルできます。それを使って何ができたかのサンプルについては、サードパーティページと アドオンページを参照してください。

質問がある場合は、まず ドキュメント、特に FAQ を読んで、問題がそこで対処されているかどうかを確認してください。そうでない場合は、Issue リストTesseract ユーザーフォーラムを検索し、それでも必要なものが見つからない場合は、Tesseract ユーザーフォーラム Google グループで質問してください。

Tesseract はフリーソフトウェアであるため、協力して手伝いたい場合は、ぜひそうしてください。バグを見つけて自分で修正した場合は、Issue リストのバグレポートにパッチを添付するのが最善です。

リリースと変更履歴

LSTM を使用した Tesseract

Tesseract 4.0 では、LSTM ニューラルネットワークに基づいた新しい OCR エンジンが追加されました。 100 以上の言語と 35 以上のスクリプトで利用できる公式言語モデルデータを使用して、x86/Linux で正常に動作します。詳細については、4.0x-Changelog を参照してください。

5.x.x

ソースコード

Tesseract 5.x.x のソースコードは、リポジトリmain ブランチで入手できます。main ブランチは、C++ コードの近代化により 4.x リリースとの API 互換性がなくなったため、5.0.0 のセマンティックバージョニングを使用しています。

バイナリ

バイナリは以下から入手できます

学習済みデータファイル

さまざまな種類のモデルの詳細については、データファイルを参照してください。

バージョン 4.00 のモデルファイルは、tessdata タグ 4.00 から入手できます。これは 2016 年 11 月のモデルが含まれています。個々の言語ファイルへのリンクは、次のリンクから入手できます。

バージョン 4.0.0 以降のモデルファイルは、tessdata タグ 4.0.0 から入手できます。これには、tessdata_best LSTM モデルの整数バージョンで更新された 2017 年 9 月のレガシーモデルが含まれています。この学習済みデータファイルのセットは、--oem 0 を使用したレガシー認識器と、--oem 1 を使用した LSTM モデルの両方をサポートしています。これらのモデルは、次の Github リポジトリから入手できます。

Google でトレーニングされた 公式 学習済みデータのセットがさらに 2 つ、次の Github リポジトリで利用できるようになりました。これらにはレガシーモデルはなく、--oem 1 で使用可能な LSTM モデルのみが含まれています。

バージョン 4.0.0 で上記にリストされているのと同じ言語モデル学習済みデータファイルは、Tesseract 5.x.x で使用できます。これらは以下から入手できます

コンパイルとインストール

使い方

API の例

技術情報

Tesseract 5 のためのトレーニング

tesstrain.sh(別名 Tesseract 4 トレーニング)を使用したトレーニングは、サポートされておらず/中止されました。トレーニングには、tesseract-ocr/tesstrain のスクリプトを使用してください。

テスト

外部プロジェクト

古いバージョンのユーザーマニュアル