2 个月前
CALIP:无需参数注意力的CLIP零样本增强
Ziyu Guo; Renrui Zhang; Longtian Qiu; Xianzheng Ma; Xupeng Miao; Xuming He; Bin Cui

摘要
对比语言-图像预训练(CLIP)已被证明能够学习具有强大迁移能力的视觉表示,从而在零样本分类中取得令人满意的准确性。为了进一步提高其下游性能,现有研究提出在CLIP基础上增加额外的可学习模块,并通过少量样本训练集对其进行微调。然而,由此产生的额外训练成本和数据需求严重阻碍了模型部署和知识转移的效率。本文介绍了一种无需额外开销的增强方法——CALIP,通过无参数注意力模块来提升CLIP的零样本性能。具体而言,我们引导视觉和文本表示相互作用,并通过注意力机制探索跨模态的信息特征。由于预训练已大幅减少了两种模态之间的嵌入距离,我们在注意力机制中舍弃了所有可学习参数,并双向更新多模态特征,从而使整个过程既无参数又无需训练。这样一来,图像融合了文本感知信号,而文本表示则受到视觉引导,以实现更好的自适应零样本对齐。我们在14个数据集的各种基准上评估了CALIP在2D图像和3D点云少样本分类中的表现,结果显示其在零样本性能方面相对于CLIP有显著提升。在此基础上,我们进一步在CALIP的注意力模块中插入少量线性层,并验证了该方法在少样本设置下的鲁棒性,其性能也优于现有方法。这些广泛的实验表明,我们的方法在高效增强CLIP方面具有优越性。