
摘要
深度度量学习(Deep Metric Learning, DML)长期以来一直是机器学习领域关注的核心目标之一。现有的方法主要集中在基于传统图像数据集对预训练模型进行微调。然而,随着近年来在大规模数据集上训练的预训练模型取得显著成功,如何在保留已有知识的前提下,将模型有效适配至本地数据域中的DML任务,已成为一项挑战。本文研究了针对预训练模型在DML任务中进行高效微调的参数高效方法。具体而言,我们提出了一种基于视觉提示(Visual Prompt Tuning, VPT)的新颖且高效的框架,该框架构建于预训练视觉Transformer(Vision Transformer, ViT)之上。在传统的基于代理(proxy-based)DML范式基础上,我们通过融合输入图像与ViT所蕴含的语义信息,对代理向量进行增强,并为每一类优化相应的视觉提示。实验表明,引入语义信息的新近似方法在表征能力方面显著优于传统方法,从而有效提升了度量学习的性能。我们在多个主流DML基准上进行了大量实验,验证了所提框架的有效性与高效性。特别地,我们的微调方法仅需调整总参数量的一小部分,即可实现与近期最先进的全量微调方法相当甚至更优的性能,充分体现了其在参数效率方面的优势。