
摘要
解决基于场景的语言任务通常需要对给定任务中对象之间的关系进行推理。例如,要回答“盘子上的杯子是什么颜色?”这个问题,我们必须检查满足与盘子“在……上”关系的那个特定杯子的颜色。近期的研究提出了多种能够进行复杂关系推理的方法。然而,这些方法的大部分能力集中在推理结构上,而场景则通过简单的局部外观特征来表示。本文提出了一种不同的方法,构建视觉场景中对象的情境化表示以支持关系推理。我们提出了一种语言条件图网络(Language-Conditioned Graph Networks, LCGN)的一般框架,在该框架中,每个节点代表一个对象,并通过迭代消息传递从相关对象获取情境感知的表示,这一过程受文本输入的条件约束。例如,在盘子的“在……上”关系条件下,“杯子”对象从“盘子”对象收集消息,更新其表示为“盘子上的杯子”,这样简单的分类器就可以轻松预测答案。实验结果表明,我们的LCGN方法有效地支持了关系推理,并在多个任务和数据集上提高了性能。我们的代码可在http://ronghanghu.com/lcgn 获取。