17 天前

基于渐进式自蒸馏的鲁棒跨模态表示学习

Alex Andonian, Shixing Chen, Raffay Hamid
基于渐进式自蒸馏的鲁棒跨模态表示学习
摘要

CLIP所采用的视觉-语言学习目标无法有效应对网络采集图像描述数据集中普遍存在的噪声性多对多对应关系,这导致其在计算和数据利用效率方面表现不佳。为应对这一挑战,我们提出一种基于跨模态对比学习的新型训练框架,通过渐进式自蒸馏与软图像-文本对齐机制,更高效地从噪声数据中学习鲁棒表征。在每个小批量(minibatch)中,我们的模型会自主提炼自身知识,动态生成部分图像与文本的软对齐目标,并以此更新模型参数。在14个基准数据集上的广泛评估表明,该方法在多种任务设置下均显著优于原始CLIP模型,包括:(a)零样本分类、(b)线性探测迁移、(c)图像-文本检索,且无需额外计算开销。基于ImageNet的鲁棒性测试平台分析显示,相较于在ImageNet上训练的模型以及CLIP自身,本方法在面对自然分布偏移时展现出更优的有效鲁棒性。最后,当在规模相差两个数量级的预训练数据集上进行实验时,结果表明,本方法对CLIP的性能提升随训练样本数量的增加而持续增强,具有良好的可扩展性。