11 天前
PromptKD:面向视觉-语言模型的无监督提示蒸馏
Zheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang

摘要
提示学习(Prompt Learning)已成为提升视觉-语言模型(VLMs),如CLIP,在特定领域下游任务中性能的重要技术。现有研究主要聚焦于设计多样化的提示学习形式,而忽视了提示作为高效知识蒸馏媒介的潜力——即从更大规模的教师模型中学习。本文提出一种无监督领域提示蒸馏框架,旨在通过利用无标签领域图像进行提示驱动的模仿学习,将大型教师模型的知识迁移至轻量级目标模型。具体而言,本框架包含两个阶段。在初始阶段,我们使用领域内少量标注数据对大型CLIP教师模型进行预训练。预训练完成后,我们利用CLIP模型独特的解耦模态特性:仅通过教师模型的文本编码器一次性预计算并存储文本特征作为类别向量(class vectors)。在后续阶段,这些预存储的类别向量被教师与学生图像编码器共同使用,用于计算预测得分(logits)。进一步地,我们通过KL散度对齐教师模型与学生模型的输出logits,促使学生图像编码器在可学习提示的引导下,生成与教师模型相似的概率分布。所提出的提示蒸馏过程无需依赖标注数据,使算法能够充分挖掘领域内海量无标签图像的潜在价值。最终,经过充分训练的学生图像编码器与预存储的文本特征(即类别向量)共同用于推理阶段。据我们所知,本工作首次实现了:(1)针对CLIP模型的无监督领域特定提示驱动知识蒸馏;(2)构建了一种实用的文本特征预存储机制,将类别向量作为教师与学生模型之间的共享表示。在11个不同数据集上的大量实验验证了该方法的有效性。