2 个月前
递归视觉注意力在视觉对话中的应用
Yulei Niu; Hanwang Zhang; Manli Zhang; Jianhong Zhang; Zhiwu Lu; Ji-Rong Wen

摘要
视觉对话是一项具有挑战性的视觉-语言任务,要求代理回答关于图像的多轮问题。它通常需要解决两个主要问题:(1) 如何回答基于视觉的问题,这是视觉问答(VQA)的核心挑战;(2) 如何推断问题与对话历史之间的共指关系。一个视觉共指的例子是:问题中的代词(例如,“他们”)与对话历史中出现的名词(例如,“灯”)以及图像中定位的对象相关联(例如,前一个问题为“有多少盏灯?”)。在本研究中,为了在视觉对话中解决视觉共指问题,我们提出了一种新颖的注意力机制,称为递归视觉注意力(Recursive Visual Attention, RvA)。具体而言,我们的对话代理会浏览对话历史,直到对视觉共指解析有足够的信心,并在此过程中递归地细化视觉注意力。在大规模VisDial v0.9和v1.0数据集上的定量和定性实验结果表明,所提出的RvA不仅优于现有最先进方法,而且在没有额外注释的情况下实现了合理的递归和可解释的注意力图。代码可在以下网址获取:\url{https://github.com/yuleiniu/rva}。