
要約
最近の研究では、視覚質問応答(Visual Question Answering: VQA)のために、画像内の質問に回答に関連する領域を強調表示する空間マップを生成する注意モデルが提案されています。本論文では、「どこを見るか」つまり視覚的な注意だけでなく、「どの言葉に耳を傾けるか」つまり質問への注意も同様に重要であると主張します。私たちは、画像と質問の両方の注意を統合的に推論する新しい共注意モデルを提示します。さらに、当モデルは新しい1次元畳み込みニューラルネットワーク(CNN)を通じて階層的に質問(そして共注意メカニズムを通じて画像も)について推論を行います。このモデルにより、VQAデータセットでの最先端の性能が60.3%から60.5%へ、COCO-QAデータセットでは61.6%から63.3%へ向上しました。ResNetを使用することで、VQAでは62.1%、COCO-QAでは65.4%へと性能がさらに向上しました。