16 天前

用于视觉对话的迭代上下文感知图推理

Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang
用于视觉对话的迭代上下文感知图推理
摘要

视觉对话是一项具有挑战性的任务,要求理解隐含视觉与文本上下文之间的语义依赖关系。该任务可被建模为在上下文稀疏且图结构未知(即关系描述符未知)的图模型中进行关系推理,而如何建模潜在的上下文感知关系推理机制尤为关键。为此,我们提出一种新型的上下文感知图(Context-Aware Graph, CAG)神经网络。该图中每个节点对应一个联合语义特征,融合了基于物体的(视觉)上下文表示与基于历史的(文本)上下文表示。图结构(即对话中的关系)通过一种自适应的 top-$K$ 消息传递机制进行迭代更新。具体而言,在每一轮消息传递过程中,每个节点仅选择最相关的 $K$ 个邻居节点,并仅接收来自这些节点的消息。在完成更新后,我们对所有节点施加图注意力机制,以获得最终的图嵌入并推断答案。在CAG中,每个节点在图中具有动态关系(即不同的相关 $K$ 个邻居节点),且仅最相关的节点对上下文感知的关系推理过程产生贡献。在VisDial v0.9和v1.0数据集上的实验结果表明,CAG在性能上优于现有对比方法。可视化结果进一步验证了该方法的可解释性。

用于视觉对话的迭代上下文感知图推理 | 最新论文 | HyperAI超神经