
摘要
预训练视觉-语言模型在各类计算机视觉任务中展现出卓越的性能,尤其得益于其出色的零样本泛化能力。近年来,提示学习(prompt learning)方法被广泛探索,以高效且有效地将视觉-语言模型适配到多种下游任务。然而,大多数现有提示学习方法存在任务过拟合问题:当在特定目标任务的小规模数据集上微调提示时,模型会逐渐遗忘预训练阶段所学习到的通用知识。为解决这一问题,本文提出了一种提示元正则化方法(Prompt Meta-Regularization, ProMetaR),以提升视觉-语言模型在提示学习中的泛化能力。具体而言,ProMetaR通过元学习机制,同时优化正则化项与软提示(soft prompts),从而在保留视觉-语言模型中任务无关的通用知识的同时,有效捕获下游任务中的特定知识。此外,ProMetaR通过任务增强策略生成多个虚拟任务,以缓解元学习过程中的过拟合问题。本文还从梯度对齐(gradient alignment)的视角对ProMetaR如何提升提示微调泛化能力进行了理论分析。大量实验结果表明,与传统提示学习方法相比,ProMetaR在基础到基础(base-to-base)、基础到新类别(base-to-new)以及域泛化(domain generalization)等多种设置下均显著提升了模型的泛化性能。ProMetaR的代码已开源,可通过 https://github.com/mlvlab/ProMetaR 获取。