2 个月前

图结构表示在视觉问答中的应用

Damien Teney; Lingqiao Liu; Anton van den Hengel
图结构表示在视觉问答中的应用
摘要

本文提出了一种通过场景内容和问题的结构化表示来改进视觉问答(VQA)的方法。VQA 的一个关键挑战在于需要在视觉域和文本域之间进行联合推理。目前主流的基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的 VQA 方法受到单一向量表示的限制,这些表示很大程度上忽略了场景中的结构以及问题的形式。CNN 特征向量无法有效捕捉像多个对象实例这样简单的情况,而 LSTM 则将问题处理为一系列单词,这未能反映语言结构的真实复杂性。相反,我们建议构建场景对象和问题单词的图结构,并描述了一种利用这些表示中结构的深度神经网络。这种方法相对于 LSTM 的顺序处理显示出显著的优势。我们的方法在“抽象场景”多项选择基准测试中的准确率从 71.2% 提高到 74.4%,在“平衡”场景对(即具有细微差异且对同一问题有相反的“是/否”答案的图像)上的准确率从 34.7% 提高到 39.1%,从而证明了该方法的整体有效性。