2 个月前

视觉组合学习在人-物交互检测中的应用

Hou, Zhi ; Peng, Xiaojiang ; Qiao, Yu ; Tao, Dacheng

摘要

人-物交互（Human-Object Interaction, HOI）检测的目标是在图像中定位并推断人与物体之间的关系。这一任务具有挑战性，因为大量的可能的物体和动词组合形成了长尾分布。我们设计了一种深度视觉组合学习（Visual Compositional Learning, VCL）框架，该框架简单而高效，能够有效解决这一问题。VCL 首先将 HOI 表示分解为特定于物体和动词的特征，然后通过拼接这些分解后的特征在特征空间中生成新的交互样本。分解与组合的结合使得 VCL 能够在不同的 HOI 样本和图像之间共享物体和动词特征，并生成新的交互样本和新的 HOI 类型，从而大大缓解了长尾分布问题，有助于少样本或零样本的 HOI 检测。广泛的实验表明，所提出的 VCL 框架能够在 HICO-DET 和 V-COCO 数据集上有效提升 HOI 检测的泛化能力，并且在 HICO-DET 数据集上的表现优于最近的先进方法。代码可在 https://github.com/zhihou7/VCL 获取。