12日前

M3TR:Transformerを用いたマルチモーダル・マルチラベル認識

{Jia Li, Yifan Zhao, Jiawei Zhao}
要約

マルチラベル画像認識は、1枚の画像内で複数のオブジェクトを同時に認識することを目的としています。近年のこの問題を解決するアプローチは、ラベルの共発生依存関係を学習することで、高レベルの意味表現を強化することに注力しています。しかし、これらの手法は内在的な視覚構造の重要な関係を無視しがちであり、文脈的関係の理解に困難を抱える場合があります。視覚モダリティと言語モダリティの間の相互作用および視覚的文脈のグローバルな範囲を構築するため、本研究では、モダリティ内およびモダリティ間の三重関係学習を組み込んだマルチモーダル・マルチラベル認識Transformer(M3TR)を提案します。モダリティ内関係の構築において、CNNとTransformerの知見ある統合を実現し、意味的クロスアテンションを学習することで、視覚構造を高レベル特徴に埋め込みます。視覚モダリティと言語モダリティ間の相互作用を構築するため、クラスごとの言語情報が視覚構造学習に組み込まれるよう、言語クロスアテンションを提案するとともに、高レベル意味表現を強化するための言語誘導強化モジュールを導入します。実験結果により、三重関係の協調学習により、提案するM3TRが2つの公開マルチラベル認識ベンチマークにおいて、新たな最先端性能を達成することが確認されました。