
要約
不規則なテキストは広く使用されていますが、その形状の多様さと歪んだパターンのために認識が非常に困難です。本論文では、一般的なシーンテキスト認識のための多目的修正注意ネットワーク(Multi-Object Rectified Attention Network: MORAN)を提案します。MORANは、多目的修正ネットワークと注意に基づくシーケンス認識ネットワークから構成されています。多目的修正ネットワークは、不規則なテキストを含む画像を修正するために設計されており、認識の難易度を低下させ、注意に基づくシーケンス認識ネットワークが不規則なテキストをより容易に読み取れるようにします。このネットワークは弱い教師あり学習で訓練されるため、画像と対応するテキストラベルのみが必要です。注意に基づくシーケンス認識ネットワークは、目標となる文字に焦点を当てて順次予測結果を出力します。さらに、訓練段階において注意に基づくデコーダーに対する部分的な取り出し方法(fractional pickup method)を提案し、注意に基づくシーケンス認識ネットワークの感度向上を目指しています。修正メカニズムにより、MORANは規則的なテキストだけでなく不規則なシーンテキストも読み取ることができます。様々なベンチマークでの広範な実験が行われており、それらの結果はMORANが最先端の性能を達成していることを示しています。ソースコードは公開されています。