2 个月前

双注意力网络在视觉对话中用于视觉参照解析

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang
双注意力网络在视觉对话中用于视觉参照解析
摘要

视觉对话(VisDial)是一项要求人工智能代理根据图像回答一系列问题的任务。与视觉问答(VQA)不同,这一系列问题应当能够从对话历史中捕捉时间上下文,并利用基于图像的信息。一个被称为视觉指代消解的问题涉及这些挑战,需要代理解决给定问题中的模糊指代,并在给定图像中找到相应的指代对象。本文提出了一种用于视觉指代消解的双注意力网络(DAN)。DAN由两种类型的注意力网络组成,即REFER和FIND。具体而言,REFER模块通过采用自注意力机制学习给定问题与对话历史之间的潜在关系。FIND模块以图像特征和指代感知表示(即REFER模块的输出)作为输入,并通过自下而上的注意力机制执行视觉定位。我们在VisDial v1.0和v0.9数据集上对模型进行了定性和定量评估,结果表明DAN显著优于之前的最先进模型。

双注意力网络在视觉对话中用于视觉参照解析 | 最新论文 | HyperAI超神经