2 个月前

使用神经模块网络在视觉对话中进行视觉共指消解

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach
使用神经模块网络在视觉对话中进行视觉共指消解
摘要

视觉对话涉及基于图像回答一系列问题,同时利用对话历史作为上下文。除了视觉问答(VQA)中遇到的挑战外,视觉对话还包含更多问题,后者可以视为一轮对话。我们重点关注其中一个问题,称为视觉共指解析,它涉及确定哪些词语(通常是名词短语和代词)在图像中共同指代同一个实体/对象实例。这尤其对于代词(例如“it”)至关重要,因为对话代理必须首先将其链接到先前的共指对象(例如“boat”),然后才能依赖于该共指对象“boat”的视觉定位来推理解词“it”。以往的研究(在视觉对话领域)通过以下两种方式建模视觉共指解析:(a) 通过历史上的记忆网络隐式建模;或 (b) 在整个问题层面进行粗略解析;而没有显式地在短语层面进行细粒度解析。在这项工作中,我们提出了一种神经模块网络架构用于视觉对话,引入了两个新颖的模块——引用(Refer)和排除(Exclude)——这些模块能够在更精细的词汇层面上执行显式的、基于图像的共指解析。我们在MNIST Dialog数据集上展示了我们模型的有效性,该数据集虽然视觉上简单但在共指方面复杂,并且我们的模型达到了近乎完美的准确率。此外,在VisDial数据集上也进行了测试,这是一个包含真实图像的大规模且具有挑战性的视觉对话数据集,在此数据集上我们的模型优于其他方法,并且在定性分析中表现出更高的可解释性、基于图像性和一致性。

使用神经模块网络在视觉对话中进行视觉共指消解 | 最新论文 | HyperAI超神经