7 个月前

摘要

本文介绍了一种新颖的方法，用于建模对象对之间的视觉关系。我们称这种关系为三元组（主体，谓语，客体），其中谓语通常是一个介词（例如“在...下面”，“在...前面”）或动词（“持有”，“骑乘”），用于连接一对对象（主体，客体）。学习此类关系具有挑战性，因为对象在不同的关系中具有不同的空间配置和外观。另一个主要挑战来自于获取所有可能三元组的注释，尤其是在框级别上的注释，这使得学习和评估都变得困难。本文的贡献有三个方面：首先，我们设计了强大而灵活的视觉特征，这些特征编码了对象对的外观和空间配置；其次，我们提出了一种弱监督判别聚类模型，仅使用图像级别的标签来学习关系；最后，我们引入了一个新的具有挑战性的非典型关系数据集（UnRel）及其详尽的注释，这使得对视觉关系检索进行准确评估成为可能。实验结果表明，我们的模型在视觉关系数据集上取得了最先进的性能，并显著提高了对先前未见过的关系（零样本学习）的性能，并且我们在新引入的UnRel数据集上也验证了这一观察结果。

源 PDF