
摘要
物体之间的关系在图像理解中起着至关重要的作用。尽管深度学习技术在识别单个物体方面取得了巨大成功,但对物体之间关系的推理仍然是一个具有挑战性的任务。以往的方法通常将这一问题视为分类问题,将每种类型的关系(例如“骑”)或每个不同的视觉短语(例如“人-骑-马”)视为一个类别。然而,这些方法面临着由于每种关系的高度多样性或不同视觉短语数量庞大而带来的显著困难。我们提出了一种集成框架来解决这一问题。该框架的核心是深关系网络(Deep Relational Network),这是一种专门为利用物体及其关系之间的统计依赖性而设计的新颖结构。在两个大型数据集上,所提出的方法相比现有最佳方法实现了显著的改进。