
摘要
全面理解人与物体的交互(Human-Object Interaction, HOI)不仅需要检测一小部分预定义的HOI概念(或类别),还需要识别其他合理的HOI概念,而当前的方法通常无法探索大量未知但合理的HOI概念(即动词和物体的未知但合理组合)。在本文中,1)我们介绍了一项新的且具有挑战性的任务,以实现对HOI的全面理解,该任务被称为HOI概念发现;2)我们设计了一个自组合学习框架(Self-Compositional Learning, SCL),用于HOI概念发现。具体而言,在训练过程中,我们维护一个在线更新的概念置信矩阵:1)根据概念置信矩阵为所有复合HOI实例分配伪标签,进行自训练;2)利用所有复合HOI实例的预测结果更新概念置信矩阵。因此,所提出的方法能够在已知和未知的HOI概念上进行学习。我们在多个流行的HOI数据集上进行了广泛的实验,以证明所提出方法在HOI概念发现、物体功能识别和HOI检测方面的有效性。例如,所提出的自组合学习框架显著提高了1)在HICO-DET数据集上的HOI概念发现性能超过10%,在V-COCO数据集上超过3%;2)在MS-COCO和HICO-DET数据集上的物体功能识别性能超过9% mAP;3)分别在罕见优先和非罕见优先的未知HOI检测中相对提高了超过30%和20%。代码已公开发布于 https://github.com/zhihou7/HOI-CL。