2ヶ月前

深層モジュラーコアテンションネットワークを用いた視覚的質問応答

Zhou Yu; Jun Yu; Yuhao Cui; Dacheng Tao; Qi Tian
深層モジュラーコアテンションネットワークを用いた視覚的質問応答
要約

視覚質問応答(VQA)は、画像の視覚的な内容と質問の文章的な内容を細かくかつ同時に理解することを必要とします。したがって、質問中のキーワードと画像中のキーオブジェクトを関連付ける効果的な「共注意」モデルの設計は、VQAの性能において中心的な役割を果たします。これまで、共注意学習の成功例の多くは浅いモデルを使用して達成されてきましたが、深い共注意モデルはその浅い対応物に対してほとんど改善が見られていません。本論文では、深層モジュラ共注意ネットワーク(Modular Co-Attention Network: MCAN)を提案します。このネットワークは、深さ方向に連結されたモジュラ共注意(Modular Co-Attention: MCA)層で構成されています。各MCA層は、2つの基本的な注意ユニットを組み合わせたモジュラ構成を使用して、質問と画像の自己注意および画像のガイダンス注意をモデル化します。我々はベンチマークデータセットであるVQA-v2上でMCANを定量的におよび定性的に評価し、広範な削減実験を行ってMCANの有効性の理由を探ります。実験結果は、MCANが従来の最先端技術よりも著しく優れていることを示しています。最良の一モデルでは、テスト開発セットでの全体精度が70.63%となっています。コードはhttps://github.com/MILVLG/mcan-vqa で公開されています。

深層モジュラーコアテンションネットワークを用いた視覚的質問応答 | 最新論文 | HyperAI超神経