入力形式
サポートされている入力形式
Tesseract は Leptonica ライブラリを使用して次のいずれかの形式で画像を読み込みます
- PNG - libpng、libz が必要
- JPEG - libjpeg / libjpeg-turbo が必要
- TIFF - libtiff、libz が必要
- JPEG 2000 - libopenjp2 が必要
- GIF - libgif (giflib) が必要
- WebP は libwebp が必要
- BMP - ライブラリは不要*
- PNM - ライブラリは不要*
* Leptonica を除く
サポートされていない入力形式
ファイル形式が Tesseract でサポートされていない場合は、サードパーティソフトウェアを使用して Tesseract でサポートされている別の形式に変換する必要があります。
Tesseract は PDF ファイルの読み取りをサポートしません。
PDF ファイルの OCR を行う必要がある場合は、別の形式に変換するか、OCRmyPDF を使用します。
注: Tesseract は出力形式として PDF をサポートしています。
アニメーション WebP
Tesseract はアニメーション WebP ファイルの読み取りをサポートしません。
アニメーション GIF
Tesseract はアニメーション GIF ファイルの読み取りをサポートしません。
このようなファイルが与えられると、Tesseract はファイルに含まれる画像のシーケンス内の最初の画像のみを読み取ります。
その他の形式
Tesseract は次の画像形式をサポートしません
- HEIC
- AVIF
- JPEG-XL