16 天前

基于一致性的提示学习用于视觉-语言模型

Shuvendu Roy, Ali Etemad

摘要

我们提出了一种名为一致性引导提示学习（Consistency-guided Prompt Learning, CoPrompt）的新颖微调方法，适用于视觉-语言模型。该方法在少样本（few-shot）设置下对下游任务进行微调时，显著提升了大型基础模型的泛化能力。CoPrompt的核心思想是，在可训练模型与预训练模型的预测结果之间施加一致性约束，以防止模型在下游任务上发生过拟合。此外，我们进一步在一致性约束中引入了两个关键组件，以进一步提升模型性能：一是对两种扰动输入下的预测结果施加一致性约束，二是融合提示学习（prompting）与适配器（adapter）两种主流微调范式。通过对扰动输入保持一致性，能够进一步强化正则化效果，从而提升模型的泛化能力。同时，将适配器与提示机制相结合，不仅在下游任务上取得了更优性能，还在输入空间与输出空间中提供了更强的可调性，从而在少样本学习场景下实现更高效、灵活的下游适应。实验结果表明，CoPrompt在多个评估基准上均优于现有方法，涵盖从基础类别到新类别的泛化能力、领域泛化能力以及跨数据集评估。在泛化性能方面，CoPrompt在零样本任务上超越了当前最优水平，并在11个数据集上的整体调和平均性能也实现了显著提升。详细的消融实验验证了CoPrompt中各组件的有效性。相关代码已公开，可通过以下链接获取：https://github.com/ShuvenduRoy/CoPrompt。