
要約
言語知識は、文字列の意味情報を提供することで、シーンテキスト認識において大きな利点をもたらしている。しかし、従来の手法では、言語知識が出力シーケンスに対して個別に適用されてきたため、視覚的特徴(視覚的ヒント)を理解するための意味情報を十分に活用できていなかった。本稿では、視覚的特徴と意味的特徴の間で相互作用を可能にする新しい手法、すなわちマルチモーダルテキスト認識ネットワーク(Multi-modAl Text Recognition Network, MATRN)を提案する。具体的には、MATRNは視覚的特徴と意味的特徴のペアを識別し、空間情報を意味的特徴にエンコードする。この空間エンコーディングに基づき、一方のモダリティの関連特徴を参照することで、視覚的特徴と意味的特徴の双方を強化する。さらに、訓練段階において文字に関連する視覚的ヒントを隠すことで、意味的特徴を視覚的特徴に組み込む効果を促進する。実験の結果、MATRNは7つのベンチマークにおいて最先端の性能を大幅に達成した一方で、単純な二モダリティの組み合わせでは効果的な改善が得られなかった。さらなるアブレーション研究により、提案する各構成要素の有効性が裏付けられた。本研究の実装コードは、https://github.com/wp03052/MATRN にて公開されている。