16 天前

SILC:通过自蒸馏提升视觉语言预训练

Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari
SILC:通过自蒸馏提升视觉语言预训练
摘要

在大规模网络图像标题数据集上进行图像-文本预训练,已成为开放词汇分类与检索模型的默认范式,这得益于CLIP及其变体的成功。已有若干研究将CLIP的特征用于密集预测任务,并观察到模型涌现出开放集识别能力。然而,这类模型所采用的对比学习目标仅关注图像与文本之间的对齐,而并未激励图像特征在密集预测任务中的有效学习。在本工作中,我们提出SILC——一种新型的视觉-语言预训练框架。SILC通过引入自蒸馏方式的局部到全局对应关系学习,简单而有效地增强了图像-文本对比学习。我们证明,从指数移动平均(EMA)教师模型中蒸馏局部图像特征,能显著提升模型在目标检测、图像分割等密集预测任务上的性能,同时在图像级任务(如分类与检索)上也取得改进。SILC模型在零样本分类、少样本分类、图像与文本检索、零样本分割以及开放词汇分割等任务上均达到了新的最先进水平。此外,我们还表明,SILC特征在开放词汇目标检测、图像描述生成和视觉问答任务中同样表现出显著优势。

SILC:通过自蒸馏提升视觉语言预训练 | 最新论文 | HyperAI超神经