2 个月前

弱监督视觉关系学习

Julia Peyre; Ivan Laptev; Cordelia Schmid; Josef Sivic
弱监督视觉关系学习
摘要

本文介绍了一种新颖的方法,用于建模对象对之间的视觉关系。我们称这种关系为三元组(主体,谓语,客体),其中谓语通常是一个介词(例如“在...下面”,“在...前面”)或动词(“持有”,“骑乘”),用于连接一对对象(主体,客体)。学习此类关系具有挑战性,因为对象在不同的关系中具有不同的空间配置和外观。另一个主要挑战来自于获取所有可能三元组的注释,尤其是在框级别上的注释,这使得学习和评估都变得困难。本文的贡献有三个方面:首先,我们设计了强大而灵活的视觉特征,这些特征编码了对象对的外观和空间配置;其次,我们提出了一种弱监督判别聚类模型,仅使用图像级别的标签来学习关系;最后,我们引入了一个新的具有挑战性的非典型关系数据集(UnRel)及其详尽的注释,这使得对视觉关系检索进行准确评估成为可能。实验结果表明,我们的模型在视觉关系数据集上取得了最先进的性能,并显著提高了对先前未见过的关系(零样本学习)的性能,并且我们在新引入的UnRel数据集上也验证了这一观察结果。

弱监督视觉关系学习 | 最新论文 | HyperAI超神经