
摘要
人-物交互(Human-Object Interaction, HOI)检测的目标是在图像中定位并推断人与物体之间的关系。这一任务具有挑战性,因为大量的可能的物体和动词组合形成了长尾分布。我们设计了一种深度视觉组合学习(Visual Compositional Learning, VCL)框架,该框架简单而高效,能够有效解决这一问题。VCL 首先将 HOI 表示分解为特定于物体和动词的特征,然后通过拼接这些分解后的特征在特征空间中生成新的交互样本。分解与组合的结合使得 VCL 能够在不同的 HOI 样本和图像之间共享物体和动词特征,并生成新的交互样本和新的 HOI 类型,从而大大缓解了长尾分布问题,有助于少样本或零样本的 HOI 检测。广泛的实验表明,所提出的 VCL 框架能够在 HICO-DET 和 V-COCO 数据集上有效提升 HOI 检测的泛化能力,并且在 HICO-DET 数据集上的表现优于最近的先进方法。代码可在 https://github.com/zhihou7/VCL 获取。