
摘要
视觉关系捕捉了图像中对象对之间的多种交互(例如,“人骑自行车”和“人推自行车”)。因此,可能的关系集合非常庞大,难以为所有可能的关系获取足够的训练样本。由于这一限制,以往关于视觉关系检测的研究主要集中在预测少数几种关系上。尽管大多数关系出现频率较低,但它们的对象(如“人”和“自行车”)以及谓词(如“骑”和“推”)单独出现的频率较高。我们提出了一种模型,利用这一见解分别训练对象和谓词的视觉模型,然后将它们组合起来以预测每张图像中的多个关系。通过利用语义词嵌入提供的语言先验来微调预测关系的可能性,我们的模型在先前工作的基础上得到了改进。该模型可以从少量示例中扩展到预测数千种类型的关系。此外,我们还通过边界框在图像中定位预测关系中的对象。进一步研究表明,理解这些关系可以提高基于内容的图像检索效果。