
摘要
近期有多项研究提出了用于视觉问答(Visual Question Answering, VQA)的注意力模型,这些模型生成空间图以突出图像中与回答问题相关的区域。本文认为,除了建模“看哪里”或视觉注意力之外,同样重要的是建模“听哪些词”或问题注意力。我们提出了一种新颖的协同注意力模型,该模型同时对图像和问题的注意力进行推理。此外,我们的模型通过一种新颖的一维卷积神经网络(1-dimensional Convolutional Neural Network, CNN)以层次化的方式对问题(并通过协同注意力机制对图像)进行推理。我们的模型在VQA数据集上的表现从60.3%提升至60.5%,在COCO-QA数据集上的表现从61.6%提升至63.3%。通过使用ResNet,性能进一步提升至VQA数据集的62.1%和COCO-QA数据集的65.4%。