GEN-VLKT:简化关联并增强交互理解用于HOI检测

人体-物体交互(Human-Object Interaction, HOI)检测任务可分解为两个核心问题:人体与物体的关联(human-object association)以及交互理解(interaction understanding)。本文从这两个方面揭示并解决了传统查询驱动型HOI检测器的不足。在关联建模方面,以往的双分支方法存在复杂的后处理匹配过程,计算成本高昂;而单分支方法则忽略了不同任务间特征的差异性。为此,本文提出Guided-Embedding Network(GEN),构建了一种无需后处理匹配的双分支检测流程。在GEN中,我们设计了一个实例解码器(instance decoder),利用两组独立的查询集分别检测人体与物体,并引入位置引导嵌入(position-guided embedding, p-GE),将空间位置相同的检测结果标记为一对人体-物体。此外,我们设计了交互解码器(interaction decoder)用于交互类别分类,其中交互查询由各实例解码器层输出生成的实例引导嵌入(instance-guided embedding, i-GE)构成。在交互理解方面,现有方法普遍面临长尾分布问题以及零样本发现(zero-shot discovery)的挑战。为此,本文提出一种视觉-语言知识迁移(Visual-Linguistic Knowledge Transfer, VLKT)训练策略,通过将预训练的视觉-语言模型CLIP中的知识迁移至HOI检测器,以增强交互理解能力。具体而言,我们利用CLIP提取所有类别标签的文本嵌入,用于初始化分类器,并引入模仿损失(mimic loss),最小化GEN与CLIP之间视觉特征的差异。实验结果表明,GEN-VLKT在多个主流数据集上均显著超越现有最先进方法,例如在HICO-Det数据集上mAP提升达+5.05。相关源代码已公开,地址为:https://github.com/YueLiao/gen-vlkt。