
摘要
视觉对话是一项根据输入图像回答一系列相互依赖的问题的任务,通常需要解决这些问题之间的视觉引用。这个问题与视觉问答(VQA)不同,后者依赖于从图像和问题对中估计的空间注意力(即视觉定位)。我们提出了一种新颖的注意力机制,该机制利用过去的视觉注意力来解决当前在视觉对话场景中的引用。所提出的模型配备了一个关联注意力记忆模块,用于存储先前的一系列(注意力,键)对。从这个记忆模块中,模型会检索出最相关且最近的前一个注意力,以解决当前问题中可能存在的模糊引用。然后,模型将检索到的注意力与初步生成的注意力合并,以获得当前问题的最终注意力;具体而言,我们使用动态参数预测方法,在条件为问题的情况下结合这两种注意力。通过在新的合成视觉对话数据集上进行广泛的实验,我们展示了我们的模型在视觉引用解析起重要作用的情况下显著优于现有最佳方法(约提高16个百分点)。此外,在Visual Dialog数据集上,尽管参数数量远少于基线模型,所提出的模型仍取得了优异的表现(约提高2个百分点)。