
摘要
理解视觉场景不仅仅是孤立地识别单个对象。对象之间的关系也构成了关于该场景的丰富语义信息。在本研究中,我们使用场景图(scene graphs)显式建模对象及其关系,这是一种基于图像的图形结构。我们提出了一种新颖的端到端模型,可以从输入图像生成这种结构化的场景表示。该模型利用标准循环神经网络(RNNs)解决场景图推理问题,并通过消息传递机制迭代地改进其预测结果。我们的联合推理模型能够利用上下文线索,从而对对象及其关系做出更准确的预测。实验结果表明,我们的模型在使用Visual Genome数据集生成场景图以及使用NYU Depth v2数据集推断支撑关系方面显著优于先前的方法。