6 个月前

摘要

零样本人类-物体交互（Zero-shot Human-Object Interaction, HOI）检测器具备在训练阶段未见过的HOI类别上进行泛化的能力。受CLIP模型在零样本任务中表现出色的启发，近期方法致力于利用CLIP的嵌入表示来提升零样本HOI检测性能。然而，这些基于嵌入的方法仅在已见类别上训练分类器，不可避免地在推理阶段导致已见与未见类别之间的混淆。此外，我们发现引入提示调优（prompt-tuning）和适配器（adapters）会进一步加剧已见类别与未见类别之间准确率的差距。为应对这一挑战，本文提出首个基于生成机制的CLIP零样本HOI检测模型——HOIGen。该模型突破了传统方法仅依赖CLIP进行特征提取的局限，充分释放CLIP在特征生成方面的潜力。为此，我们设计了一种注入CLIP的特征生成器，专门用于生成人类、物体及二者联合的特征。随后，我们通过提取真实已见样本的特征，并将其与合成生成的特征混合，使模型能够联合训练已见与未见类别，从而缓解类别混淆问题。为进一步提升HOI得分的表达能力，我们在成对交互识别分支中构建了一个生成式原型库（generative prototype bank），在图像级交互识别分支中引入一个多知识原型库（multi-knowledge prototype bank），以增强模型对复杂交互关系的建模能力。在HICO-DET基准上的大量实验表明，相较于当前表现最优的其他方法，HOIGen在多种零样本设置下均在已见类别和未见类别上实现了更优的性能。代码已开源，地址为：https://github.com/soberguo/HOIGen。

源 PDF