16 天前

SILC：通过自蒸馏提升视觉语言预训练

Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari

摘要

在大规模网络图像标题数据集上进行图像-文本预训练，已成为开放词汇分类与检索模型的默认范式，这得益于CLIP及其变体的成功。已有若干研究将CLIP的特征用于密集预测任务，并观察到模型涌现出开放集识别能力。然而，这类模型所采用的对比学习目标仅关注图像与文本之间的对齐，而并未激励图像特征在密集预测任务中的有效学习。在本工作中，我们提出SILC——一种新型的视觉-语言预训练框架。SILC通过引入自蒸馏方式的局部到全局对应关系学习，简单而有效地增强了图像-文本对比学习。我们证明，从指数移动平均（EMA）教师模型中蒸馏局部图像特征，能显著提升模型在目标检测、图像分割等密集预测任务上的性能，同时在图像级任务（如分类与检索）上也取得改进。SILC模型在零样本分类、少样本分类、图像与文本检索、零样本分割以及开放词汇分割等任务上均达到了新的最先进水平。此外，我们还表明，SILC特征在开放词汇目标检测、图像描述生成和视觉问答任务中同样表现出显著优势。