コンテンツへスキップ

Tesseract ユーザーマニュアル

このユーザーマニュアルは、Tesseract バージョン 5.x 用です。バージョン 4.x.x3.05.02 およびそれ以前のバージョンについては、旧バージョンのドキュメントを参照してください。

はじめに

Tesseract は、テキスト認識 (OCR) エンジンで、Apache 2.0 ライセンスの下で利用可能なオープンソースソフトウェアです。

Tesseract は、コマンドライン を介して直接使用するか、(プログラマーの場合)API を使用して画像から印刷されたテキストを抽出できます。それは幅広い言語をサポートしています。Tesseract には組み込みの GUI はありませんが、サードパーティ ページから入手可能なものがいくつかあります。Tesseract の外部ツール、ラッパー、トレーニングプロジェクトは、アドオン の下にリストされています。

Tesseract は、Apache License 2.0 の条件下で、独自のプロジェクトで使用できます。完全機能を備えた API を備えており、Android や iPhone を含むさまざまなターゲットに対してコンパイルできます。サードパーティアドオン のページで、これを使用して作成されたサンプルを参照してください。

ご質問がある場合は、まずドキュメント、特にFAQ を読んで、そこで問題が解決されているかどうかを確認してください。そうでない場合は、問題リストTesseract ユーザーフォーラム を検索し、それでも必要なものが見つからない場合は、Tesseract ユーザーフォーラム Google グループ で質問してください。

Tesseract はフリーソフトウェアであるため、協力したい場合は、ぜひご協力ください。バグを見つけ、自分で修正した場合は、問題リスト にパッチを添付するのが最善の方法です。

リリースと変更ログ

LSTM を使用した Tesseract

Tesseract 4.0 は、LSTM ニューラルネットワークに基づく新しい OCR エンジンを追加しました。これは、公式言語モデルデータが 100 以上の言語と 35 以上のスクリプト で利用可能な x86/Linux でうまく機能します。4.0x-Changelog で詳細をご覧ください。

5.x.x

ソースコード

Tesseract 5.x.x のソースコードは、リポジトリmain ブランチにあります。main ブランチは、C++ コードの近代化により 4.x リリースとの API の互換性がなくなったため、5.0.0 semver バージョンを使用しています。

バイナリ

バイナリは以下から入手できます。

Traineddata ファイル

さまざまな種類のモデルの詳細については、データファイルを参照してください。

バージョン 4.00 のモデルファイルは、tessdata タグ付き 4.00 から入手できます。2016年11月のモデルが含まれています。個々の言語ファイルへのリンクは、次のリンクから入手できます。

バージョン 4.0.0 以降のモデルファイルは、tessdata タグ付き 4.0.0 から入手できます。これには、tessdata_best LSTM モデルの整数バージョンで更新された、2017年9月のレガシーモデルが含まれています。この traineddata ファイルセットは、--oem 0 を使用したレガシー認識器と、--oem 1 を使用した LSTM モデルの両方をサポートしています。これらのモデルは、次の GitHub リポジトリから入手できます。

Google でトレーニングされた、さらに2つの 公式 traineddata セットが、次の GitHub リポジトリで公開されています。これらにはレガシーモデルが含まれておらず、--oem 1 で使用できる LSTM モデルのみが含まれています。

バージョン 4.0.0 の上記と同じ言語モデル traineddata ファイルは、Tesseract 5.x.x で使用できます。これらは以下から入手できます。

コンパイルとインストール

使用方法

API 例

技術情報

Tesseract 5 のトレーニング

tesstrain.sh(別名 Tesseract 4 トレーニング)を使用したトレーニングは、サポートされていません/廃止されました。トレーニングには、tesseract-ocr/tesstrain のスクリプトを使用してください。

テスト

外部プロジェクト

旧バージョンのユーザーマニュアル