2 个月前

ZeroDiff:零样本学习中的固化视觉-语义关联

Ye, Zihan ; Gowda, Shreyank N. ; Huang, Xiaowei ; Xu, Haotian ; Jin, Yaochu ; Huang, Kaizhu ; Jin, Xiaobo
ZeroDiff:零样本学习中的固化视觉-语义关联
摘要

零样本学习(Zero-shot Learning, ZSL)旨在使分类器能够识别未见过的类别。这通常通过基于从已见类别中学习到的视觉-语义相关性生成未见类别的视觉特征来实现。然而,大多数当前的生成方法严重依赖于已见类别中有足够数量的样本。我们的研究表明,已见类别样本的稀缺会导致许多生成式ZSL技术性能显著下降。我们论证、量化并实证了这一性能下降主要是由于虚假的视觉-语义相关性所致。为了解决这一问题,我们引入了ZeroDiff,这是一种创新的生成框架,通过扩散机制和对比表示来增强视觉-语义相关性。ZeroDiff包含三个关键组件:(1) 扩散增强,该方法可以自然地将有限的数据转换为扩展的噪声数据集,以减轻生成模型的过拟合;(2) 基于监督对比(Supervised-Contrastive, SC)的表示,动态地描述每个有限样本以支持视觉特征生成;(3) 多特征判别器采用基于Wasserstein距离的互学习方法,从多个角度评估生成的特征,包括预定义语义、SC-based表示和扩散过程。在三个流行的ZSL基准数据集上进行的大量实验表明,ZeroDiff不仅在现有ZSL方法上取得了显著改进,而且即使在训练数据稀缺的情况下也能保持稳健的性能。我们的代码可在以下地址获取:https://github.com/FouriYe/ZeroDiff_ICLR25。