16 天前

通过元正则化进行提示学习

Jinyoung Park, Juyeon Ko, Hyunwoo J. Kim

摘要

预训练视觉-语言模型在各类计算机视觉任务中展现出卓越的性能，尤其得益于其出色的零样本泛化能力。近年来，提示学习（prompt learning）方法被广泛探索，以高效且有效地将视觉-语言模型适配到多种下游任务。然而，大多数现有提示学习方法存在任务过拟合问题：当在特定目标任务的小规模数据集上微调提示时，模型会逐渐遗忘预训练阶段所学习到的通用知识。为解决这一问题，本文提出了一种提示元正则化方法（Prompt Meta-Regularization, ProMetaR），以提升视觉-语言模型在提示学习中的泛化能力。具体而言，ProMetaR通过元学习机制，同时优化正则化项与软提示（soft prompts），从而在保留视觉-语言模型中任务无关的通用知识的同时，有效捕获下游任务中的特定知识。此外，ProMetaR通过任务增强策略生成多个虚拟任务，以缓解元学习过程中的过拟合问题。本文还从梯度对齐（gradient alignment）的视角对ProMetaR如何提升提示微调泛化能力进行了理论分析。大量实验结果表明，与传统提示学习方法相比，ProMetaR在基础到基础（base-to-base）、基础到新类别（base-to-new）以及域泛化（domain generalization）等多种设置下均显著提升了模型的泛化性能。ProMetaR的代码已开源，可通过 https://github.com/mlvlab/ProMetaR 获取。