
摘要
我们提出了一种新颖的模型来解决具有复杂对话结构的视觉对话任务。为了基于当前问题和对话历史获得合理的答案,对话实体之间的潜在语义依赖关系至关重要。在本文中,我们将这一任务明确形式化为部分观测节点和未知图结构(对话中的关系)下的图模型推理。给定的对话实体被视为观测节点,而对给定问题的答案则由一个缺失值的节点表示。我们首先引入了一种期望最大化算法来推断潜在的对话结构和缺失节点值(所需答案)。在此基础上,我们进一步提出了一种可微分的图神经网络(GNN)解决方案,以近似这一过程。实验结果表明,在VisDial和VisDial-Q数据集上,我们的模型优于比较方法。此外还观察到,我们的方法可以推断出潜在的对话结构,从而提高对话推理的效果。