Tesseract およびその他のサードパーティプロジェクトのGUIインターフェースについては、ユーザープロジェクト - サードパーティ を参照してください。
Tesseract の外部ツール、ラッパー、トレーニングプロジェクト
Tesseract のボックスエディターとトレーニングツール
プラットフォームのサポートは、使用する言語とユーザーの経験によって異なります。
Tesseract バージョン 4 以降用
ボックスファイルエディター
Tesseract 3.0x 用
ボックスファイルエディター
名称 | 最終更新日 | 言語 | 複数ページのサポート |
---|---|---|---|
jTessBoxEditor | 2023 | Java | あり |
QT Box Editor | 2019 | C++、Qt4/Qt5 | あり |
tesseract-box-editor | 2013 | .NET 4 | あり |
Tesseract-OCR ボックスファイル AJAX エディター | 2012 | オンラインツール | |
cowboxer | 2012 | C++、Qt4 | なし |
moshPyTT | 2011 | Python、GTK2 | なし |
pytesseracttrainer | 2011 | Python、GTK2 | なし |
Tesseract-OCR 2.0x 用
ボックスファイルエディター
名称 | 最終更新日 | 言語 |
---|---|---|
Tesseract-OCR ボックスファイル AJAX エディター | 2012 | オンラインツール |
owlboxer | 2010 | C++、Qt4 |
Tessboxer | 2009 | .NET |
boxfilereader.php | 2009 | php |
tessboxes | 2008 | C |
JTesseract | 2008 | C# |
wx-tetra | 2008 | perl、wx |
bbtesseract | 2008 | VB.NET 2008 |
その他のトレーニングツール
-
jTessBoxEditor - ボックスエディターとトレーニングツール
- MzTesseract - 上から下へ新しい言語をトレーニングできる MS Windows プログラム
- FrankenPlus - ページ画像から Tesseract OCR エンジンのフォントトレーニングを作成するためのツール。Franken+の詳細については、IT’S ALIVE! と Franken+ ホームページ を参照してください。
- python-tesseract-3.02-training - Tesseract 3.02 トレーニングファイルの生成を自動化するスクリプト
- tesseract-box-file - ボックスファイルの編集を容易にする AutoIt スクリプト
- Serak Tesseract Trainer for Tesseract 3.02 - Tesseract 3.02 トレーニングのためのフロントエンドGUI
- BoxMaker は、画像とボックスのペアを生成するためのオンラインツールです。PersianOCR プロジェクトのダウンロードセクションにオフラインバージョンがあります。
- boxFactory は、Tesseract OCR エンジンのトレーニングのためのボックスファイルをすばやく作成するためのツールです。画像の文字を、周囲にボックスを描くだけで識別できます。
- https://github.com/BaltoRouberol/TesseractTrainer - TesseractTrainer は、Tesseract3 の手動トレーニングの面倒なプロセスを引き継ぐシンプルな Python API です。
- tess_school - Tesseract のトレーニングプロセスを少し容易にするための便利なスクリプトのセット
- txt2img - テキスト入力に基づいて画像とボックスファイルを作成する Qt GUI アプリケーション
- DangAmbigs ジェネレーター - OCR テキスト出力と正しいテキストのセットが与えられた場合、DangAmbigs ファイルを自動的に作成します。 *要件:* Python
- train.ps1 - Tesseract 3.01 言語データパック生成プロセスを自動化する Windows PowerShell スクリプト。
- unicharambigs.exe の更新 - 「lang.unicharambigs」ファイルを編集するための小さな(Windows)C# プログラム
- train_tess.pl - トレーニングを容易にする Perl スクリプト
- boxedit - Tesseract ボックスファイル用の Web ベースのエディター
- TrainYourTesseract - 無料のオンライン「手間いらず」TTF ファイルから trainedata コンバーター
コミュニティトレーニングプロジェクト
- Tesseract-MICR-OCR: https://github.com/BigPino67/Tesseract-MICR-OCR
- MRZ: https://groups.google.com/group/tesseract-ocr/attach/10d7c711c9cc80/mrz.traineddata
- ラテン語: https://github.com/ryanfb/latinocr-lattraining
- tesseract-georgian: https://github.com/ddohler/tesseract-georgian
- ポーランド語フラクトゥール: IMPACT プロジェクトの結果としてのトレーニング、トレーニング済みデータセット
- 古代ギリシャ語: http://ancientgreekocr.org
- インド系言語: http://code.google.com/p/tesseractindic/, https://github.com/debayan/Tesseract-Indic-OCR/, http://code.google.com/p/parichit/ (すべて廃止済み)
- Indic-OCR http://indic-ocr.github.io/tessdata/
- アイルランドのアンシャル体: https://github.com/jimregan/tesseract-gle-uncial
- ポーランド語: http://code.google.com/p/tesseract-polish/
- フラクトゥール (dan、deu、swe): https://github.com/paalberti/tesseract-dan-fraktur
- ミャンマー語: http://code.google.com/p/myaocr/
- ペルシャ語(ファルシ語): https://github.com/reza1615/PersianOcr
- 7セグメントフォント: https://github.com/arturaugusto/display_ocr/tree/master/letsgodigital
ポート
- Project Naptha
- tesseract.js-core - Tesseract C++ API の Emscripten ポート
- tesseract.js - 純粋な Javascript OCR
Tesseract ラッパー
Tesseract 4.0x
Java
- tess4j - JNA ラッパー。ドキュメントとディスカッション - http://tess4j.sourceforge.net/
- bytedeco - https://bytedeco.org からの JavaCPP-Presets ライブラリに基づく Tesseract の Java 設定およびインターフェースクラス
Python
- tesserocr - Tesseract の C++ API をラップする Python ラッパー
- pytesseract - Tesseract OCR のラッパー クラス(Tesseract 実行可能ファイルが必要です)
- tesseract-ocr-wrapper - PDF の OCR をサポートする tesseract-ocr の Python ラッパー
- aiopytesseract - Tesseract-OCR の asyncio Tesseract ラッパー。
- image2text - 大規模なデータセットとディレクトリで動作する Tesseract の Python ラッパー。
Objective-C
Swift
- swiftytesseract Swift ラッパー
Flutter
- tesseract_ocr Flutter プラグイン
R
- tesseract R プログラミング言語の C++ API へのバインディング
Ruby
- rtesseract Tesseract OCR のラッパー gem(Tesseract 実行可能ファイルが必要です)
Rust
- rusty-tesseract Tesseract OCR のラッパー クラス(Tesseract 実行可能ファイルが必要です; pytesseract をベースにしています)
Elixir
Crystal
Tesseract 3.0x
C
- Tesseract バージョン 3.02 以降には、C API が含まれています。
.Net
- charlesw/tesseract - プロジェクトは tesseract-ocr 64bit Windows ライブラリ も提供しています。
Python
- tesserocr - Tesseract の C++ API をラップする Python ラッパー
- pyocr - Tesseract(および Cuneiform)の Python ラッパー
- tesserwrap - Tesseract API への Python バインディング
- tesseract-sip - libtesseract の Python SIP ラッパー(Apache ライセンス)
- pytesseract - Tesseract OCR のラッパー クラス(Tesseract 実行可能ファイルが必要です)
- python-tesseract - 従来の画像ファイルを使用できる Tesseract OCR のラッパー クラス(SWIG ベース)
- http://code.google.com/p/pytess/ - Tesseract のシンプルな SWIG ベースのインターフェース
- aiopytesseract - Tesseract-OCR の asyncio Tesseract ラッパー。
R
- tesseract R プログラミング言語の C++ API へのバインディング
Ruby
- ruby-tesseract-ocr - C++ API を使用する Tesseract 3.0x のラッパー
- rtesseract
Java
- bytedeco - https://bytedeco.org からの「JavaCPP-Presets」ライブラリに基づく Tesseract の Java 設定およびインターフェースクラス - https://github.com/bytedeco/javacpp-presets
- tess4j - JNA ラッパー。ドキュメントとディスカッション - http://tess4j.sourceforge.net/
Node.js
- penteract - Tesseract OCR プロジェクトへのネイティブ Node.js バインディング。
PHP
Objective-C
Go
Clojure
Tesseract 2.0x
Python
- http://code.google.com/p/pytesser/
- http://code.google.com/p/tesseract-python (pytesser クローン)
.NET
- http://www.pixel-technology.com/freeware/tessnet2/
Java
- tess4j (0.4) - JNA ラッパー。ドキュメントとディスカッション - http://tess4j.sourceforge.net/