
摘要
视觉问答(VQA)需要对图像的视觉内容和问题的文本内容进行细致且同步的理解。因此,设计一种有效的“共注意力”模型,以关联问题中的关键词与图像中的关键对象,对于提升VQA性能至关重要。迄今为止,大多数成功的共注意力学习尝试都是通过使用浅层模型实现的,而深层共注意力模型相较于其浅层对应模型并未显示出显著改进。在本文中,我们提出了一种深度模块化共注意力网络(MCAN),该网络由多个模块化共注意力(MCA)层按深度级联组成。每个MCA层利用两个基本注意力单元的模块化组合,建模问题和图像的自注意力以及图像的引导注意力。我们对MCAN在基准VQA-v2数据集上进行了定量和定性的评估,并进行了广泛的消融研究以探讨MCAN有效性的原因。实验结果表明,MCAN显著优于之前的最先进方法。我们的最佳单一模型在测试开发集上的总体准确率为70.63%。代码可在https://github.com/MILVLG/mcan-vqa 获取。