幻覚効果
システム内の小さな状態の変化において大きな違いが生じてしまう初期条件の繊細な依存性です。これは somehow「バタフライ効果」および「ドミノ効果」に関連性があります。
Tessaract 4.xでこの現象を観察
トレーニングテキストに特定の形式の特定の要素が頻繁に含まれている場合。
-
例1: 単語が頻繁に大文字形式
Word
にある場合、トレーニングされたモデルを使用してword
を認識すると、幻覚が生じてWord
と認識されます。 -
例2: トレーニングテキストに頻繁に文頭または文末に
スペース
が含まれます。トレーニングの遅延、不整合、さらにはモデルの破損が生じる可能性があります。
結論
ほとんどの場合、幻覚効果はtraineddata
モデルの作成に使用されたテキストの生成物です。
このような効果に対処するには、1つの要素/形式/文字などの過剰使用を控えなければなりません。
また、トレーニングには膨大で多様なテキスト入力を使用し、不要と思われる部分を削除してクリーニングする必要があります。これはNeural Networks
もパターンと言語の動作を学習するためです。