2 个月前

深度模块化协同注意网络用于视觉问答

Zhou Yu; Jun Yu; Yuhao Cui; Dacheng Tao; Qi Tian

摘要

视觉问答（VQA）需要对图像的视觉内容和问题的文本内容进行细致且同步的理解。因此，设计一种有效的“共注意力”模型，以关联问题中的关键词与图像中的关键对象，对于提升VQA性能至关重要。迄今为止，大多数成功的共注意力学习尝试都是通过使用浅层模型实现的，而深层共注意力模型相较于其浅层对应模型并未显示出显著改进。在本文中，我们提出了一种深度模块化共注意力网络（MCAN），该网络由多个模块化共注意力（MCA）层按深度级联组成。每个MCA层利用两个基本注意力单元的模块化组合，建模问题和图像的自注意力以及图像的引导注意力。我们对MCAN在基准VQA-v2数据集上进行了定量和定性的评估，并进行了广泛的消融研究以探讨MCAN有效性的原因。实验结果表明，MCAN显著优于之前的最先进方法。我们的最佳单一模型在测试开发集上的总体准确率为70.63%。代码可在https://github.com/MILVLG/mcan-vqa 获取。