
摘要
要深入理解场景不仅涉及定位/识别单个对象,还需要推断这些对象之间的关系和互动。然而,由于现实世界中关系的分布严重不平衡,现有方法在处理较少出现的关系时表现较差。在这项工作中,我们发现对象对及其关系之间的统计相关性可以有效地规范语义空间,减少预测的模糊性,从而很好地解决分布不平衡的问题。为了实现这一目标,我们将这些统计相关性融入深度神经网络中,通过开发知识嵌入路由网络(Knowledge-Embedded Routing Network)来促进场景图生成。具体而言,我们展示了图像中出现的对象及其关系之间的统计相关性可以通过结构化的知识图谱显式表示,并且学习了一种路由机制以通过图谱传播消息来探索它们的互动。在大规模 Visual Genome 数据集上的广泛实验表明,所提出的方法优于当前最先进的竞争对手。