11 天前

GraghVQA:用于基于图的视觉问答的语言引导图神经网络

Weixin Liang, Yanhao Jiang, Zixuan Liu
GraghVQA:用于基于图的视觉问答的语言引导图神经网络
摘要

图像远不止是物体或属性的简单集合,它们更代表着相互关联的物体之间错综复杂的语义关系。场景图(Scene Graph)作为一种结构化的图像图形化表示新范式应运而生。在场景图中,物体被表示为节点,而物体之间的成对关系则通过边进行连接。为支持基于场景图的问答任务,我们提出了 GraphVQA——一种基于语言引导的图神经网络框架,该框架能够将自然语言问题转化为图节点间的多轮消息传递过程,并完成相应推理与执行。我们系统地探索了 GraphVQA 框架的设计空间,并深入分析了不同设计选择之间的权衡关系。在 GQA 数据集上的实验结果表明,GraphVQA 相较于当前最先进的模型取得了显著提升,准确率达到了 94.78%,远超对比模型的 88.43%。

GraghVQA:用于基于图的视觉问答的语言引导图神经网络 | 最新论文 | HyperAI超神经