17 天前

利用视觉-语言模型提升图像分类中的领域泛化能力

Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu

摘要

视觉-语言模型（Vision-Language Models, VLMs）如CLIP在大规模图像-文本对数据上进行训练，展现出在多种数据分布上的卓越泛化能力。然而，在某些应用场景中，其高昂的训练成本以及数据收集与整理成本难以被最终应用所抵消。为此，我们提出一种“供应商-客户端”范式：供应商训练一个大规模的VLM，并以黑盒形式向客户端提供按查询次数计费的输入-输出访问权限。客户端的目标是利用有限的任务特定数据，通过知识蒸馏将VLM压缩为一个轻量级的学生模型，进而将其部署于下游应用中，以最小化推理开销。尽管朴素的知识蒸馏方法能够显著提升学生模型在域内（In-Domain, ID）数据上的准确率，但在仅依赖有限标注图像的情况下，难以有效迁移VLM教师模型所具备的优异域外（Out-of-Distribution, OOD）泛化能力。为缓解这一问题，本文提出一种名为“视觉-语言到视觉对齐、蒸馏、预测”（Vision-Language to Vision - Align, Distill, Predict, VL2V-ADiP）的新方法。该方法首先将教师模型的视觉与语言模态与预训练学生模型的视觉模态进行对齐，随后将对齐后的VLM表征蒸馏至学生模型。该策略在最大程度保留学生模型原有预训练特征的同时，融合了VLM图像编码器的丰富表征能力以及文本嵌入所具有的优越泛化性能。实验结果表明，所提方法在标准的域泛化（Domain Generalization）基准测试中，无论是在黑盒教师模型场景（仅提供输入输出接口）还是白盒场景（可访问VLM模型权重）下，均取得了当前最优的性能表现。