コンテンツへスキップします。

Tesseract トレーニング用のフォント

Tesseract トレーニングでは、リストアップされたフォントを使用してレンダリングされたテキストから作られた画像を使用できます。これらのフォントは、トレーニングプロセスを実行するホストで使用可能である必要があります。

Tesseract 4.0.0 の従来の OCR エンジンと 3.05 の OCR エンジンをトレーニングするために使用されたフォントは、training/language-specific.sh で定義されています。

さらに多数のフォントが、langdata/font_properties にリストされています。最初のファイルにフォントを追加するか(またはコマンドラインパラメータで明示的に指定する)、2 番目のファイルにも追加する必要があります。

4.0.0 の LSTM OCR エンジンをトレーニングするために使用されたフォントは、langdata_lstm レポジトリのcode class="language-plaintext highlighter-rouge"><lang>/okfonts.txt` ファイルで定義されています。

フォントの検索

トレーニングテキストをレンダリングする、システムにすでにインストールされているフォントを検索するには、次のコマンドを使用できます(セットアップに合わせて言語コードとディレクトリロケーションを変更してください)。 `fontslist.txt` は `training/language-specific.sh` で使用できるテキストを提供します。

text2image --find_fonts \
--fonts_dir /usr/share/fonts \
--text ./langdata/eng/eng.training_text \
--min_coverage .9  \
--outputbase ./langdata/eng/eng \
|& grep raw \
 | sed -e 's/ :.*/@ \\/g' \
 | sed -e "s/^/  '/" \
 | sed -e "s/@/'/g" >./langdata/eng/fontslist.txt

上記は Fraktur フォントでは機能せず、すべての Latin フォントも識別します。生成された画像を確認し、適切なフォントを選択します。

フォントのインストール

Debian

Debian GNU Linux と同様のディストリビューション(Linux Mint、Ubuntu など)では、必要なフォントを次のようにしてインストールできます。

# AMHARIC_FONTS (todo)
# ANCIENT_GREEK_FONTS (todo)
# ARABIC_FONTS (todo)
# ARMENIAN_FONTS (todo)
# BENGALI_FONTS (todo)
# BURMESE_FONTS (todo)
# CHI_SIM_FONTS (todo)
# CHI_TRA_FONTS (todo)

# DEVANAGARI_FONTS (see also external links below)
apt-get install fonts-deva

# EARLY_LATIN_FONTS (todo)
# FRAKTUR_FONTS (todo)
# GEORGIAN_FONTS (todo)
# GREEK_FONTS (todo)
# GUJARATI_FONTS (todo)
# HEBREW_FONTS (todo)

# JPN_FONTS (todo)
apt-get install fonts-noto-cjk fonts-japanese-mincho.ttf fonts-takao-gothic fonts-vlgothic

# KANNADA_FONTS (todo)
# KHMER_FONTS (todo)
# KOREAN_FONTS (todo)
# KURDISH_FONTS (todo)
# KYRGYZ_FONTS (todo)
# LAOTHIAN_FONTS (todo)

# LATIN_FONTS
apt-get install fonts-dejavu gsfonts ttf-mscorefonts-installer

# MALAYALAM_FONTS (todo)

# NEOLATIN_FONTS (still incomplete)
apt-get install fonts-ebgaramond fonts-gfs-didot fonts-gfs-didot-classic fonts-junicode

# NORTH_AMERICAN_ABORIGINAL_FONTS (todo)
# OLD_GEORGIAN_FONTS (todo)
# ORIYA_FONTS (todo)
# PERSIAN_FONTS (todo)
# PUNJABI_FONTS (todo)
# RUSSIAN_FONTS (todo)
# SINHALA_FONTS (todo)
# SYRIAC_FONTS (todo)
# TAMIL_FONTS (todo)
# TELUGU_FONTS (todo)
# THAANA_FONTS (todo)
# THAI_FONTS (todo)
# TIBETAN_FONTS (todo)
# VERTICAL_FONTS (todo)
# VIETNAMESE_FONTS (todo)

`fc-list` コマンドでインストールされているフォントを表示します。Debian Wiki も参照してください。

`text2image --fonts_dir /usr/share/fonts --list_available_fonts` でもすべてのフォントが表示されます。

(ほとんど無料の)フォントのソース

多くのスクリプトをまかなうフォント

ラテン語フォント

アラビア語フォント

デーバナーガリーフォント

Fraktur フォント

ヘブライ語フォント

フォントのコレクション

フォントに関するさらに詳しい情報