便利な制御パラメータと設定ファイルのリスト

はじめに

Tesseract は、制御方法を知っていれば非常に柔軟です。その動作を変更するための多数の制御パラメータがあります。パラメータは随時変更されますが、ほとんどのものは比較的安定しています。デフォルト値と簡単な説明を含むすべてのパラメータのリストは、次のコマンドで取得できます。

tesseract --print-parameters

タイプは 3 つあります。

初期化マクロの INIT によって特徴付けられます。これらのパラメータは、設定ファイルのリストを取る ` TessBaseAPI::Init ` 関数でのみ設定できます。

注: 初期化のみのパラメータは、tesseract 実行可能オプション -c で変更することはできません。

残りのものは ` TessBaseAPI::SetVariable ` を通じて設定でき、さらに 2 つのグループに分類されます。

Tesseract の機能のさまざまな側面を制御します。

名前にはデバッグが含まれ、Tesseract が機能するときの大量のオプションのデバッグテキストとグラフィカル出力を制御します。

デフォルト値は変更される可能性があることに注意してください。確実にする必要がある場合はソースコードを確認してください。

名前	タイプ	デフォルト値	初期化のみ	説明
` load_system_dawg `	boolean (0/1)	1	はい	選択した言語のメイン辞書を読み込むかどうかを制御します。
` user_words_suffix `	文字列	””	はい	ユーザーワード単語リストファイルの拡張子。空でない場合、選択した言語の辞書に追加する単語の関連リストを読み込もうとします。たとえば、` user-words ` に設定した場合、Tesseract は初期化時に tessdata ディレクトリから ` eng.user-words ` を読み込もうとします。
` language_model_penalty_non_dict_word `	double (0-1)	0.15	いいえ	word_dawg/user_words 単語リストにない単語に適用されるペナルティ。
` language_model_penalty_non_freq_dict_word `	double (0-1)	0.1	いいえ	freq_dawg 単語リストにない単語に適用されるペナルティ。

日本語の tessaract ユーザーは、これらのパラメータを使用して、日本語の tessaract-ocr (3.02) の精度を向上させるのに役立つことがわかりました。、

名前	推奨値	説明
chop_enable	T	チョップを有効にします。
use_new_state_cost	F	セグメンテーション状態評価に新しい状態コストヒューリスティックを使用します。
segment_segcost_rating	F	セグメンテーションコストを単語評価に取り入れますか?
enable_new_segsearch	0	新しいセグメンテーション検索パスを有効にします。1 つの文字を 2 つの文字に分割する問題を解決できます。
language_model_ngram_on	0	文字 n-グラムモデルを使用するかどうかの切り替え
textord_force_make_prop_words	F	すべての行に比例式による語セグメンテーションを実行
edges_max_children_per_outline	40	一部の漢字文字が認識されなかった場合は、文字アウトライン内の最大子孫数を増やしてください。