3 个月前

不再未知:解锁CLIP在生成式零样本HOI检测中的潜力

Yixin Guo, Yu Liu, Jianghao Li, Weimin Wang, Qi Jia
不再未知:解锁CLIP在生成式零样本HOI检测中的潜力
摘要

零样本人类-物体交互(Zero-shot Human-Object Interaction, HOI)检测器具备在训练阶段未见过的HOI类别上进行泛化的能力。受CLIP模型在零样本任务中表现出色的启发,近期方法致力于利用CLIP的嵌入表示来提升零样本HOI检测性能。然而,这些基于嵌入的方法仅在已见类别上训练分类器,不可避免地在推理阶段导致已见与未见类别之间的混淆。此外,我们发现引入提示调优(prompt-tuning)和适配器(adapters)会进一步加剧已见类别与未见类别之间准确率的差距。为应对这一挑战,本文提出首个基于生成机制的CLIP零样本HOI检测模型——HOIGen。该模型突破了传统方法仅依赖CLIP进行特征提取的局限,充分释放CLIP在特征生成方面的潜力。为此,我们设计了一种注入CLIP的特征生成器,专门用于生成人类、物体及二者联合的特征。随后,我们通过提取真实已见样本的特征,并将其与合成生成的特征混合,使模型能够联合训练已见与未见类别,从而缓解类别混淆问题。为进一步提升HOI得分的表达能力,我们在成对交互识别分支中构建了一个生成式原型库(generative prototype bank),在图像级交互识别分支中引入一个多知识原型库(multi-knowledge prototype bank),以增强模型对复杂交互关系的建模能力。在HICO-DET基准上的大量实验表明,相较于当前表现最优的其他方法,HOIGen在多种零样本设置下均在已见类别和未见类别上实现了更优的性能。代码已开源,地址为:https://github.com/soberguo/HOIGen。

不再未知:解锁CLIP在生成式零样本HOI检测中的潜力 | 论文 | HyperAI超神经