17 天前

PRE:基于重参数化编码器的视觉-语言提示学习

Thi Minh Anh Pham, An Duc Nguyen, Cephas Svosve, Vasileios Argyriou, Georgios Tzimiropoulos
PRE:基于重参数化编码器的视觉-语言提示学习
摘要

大型预训练视觉-语言模型(如CLIP)在零样本迁移至下游任务方面展现出巨大潜力。然而,为了获得最优性能,通常需要人工精心设计提示(prompt),以提升下游图像分布与文本类别描述之间的对齐程度。这种人工提示工程是实际部署此类模型的主要挑战,因为它不仅需要领域专业知识,而且耗时极长。为避免繁琐的提示工程,近期研究Context Optimization(CoOp)首次将提示学习(prompt learning)引入视觉领域,采用可学习的文本标记来实现提示优化。尽管CoOp相较于人工设计提示取得了显著性能提升,但其学习得到的上下文在面对同一数据集中更广泛未见类别时,泛化能力较差。在本工作中,我们提出了一种简单且高效的提示学习方法——重参数化编码器提示学习(Prompt Learning with Reparameterization Encoder, PRE),该方法在保持对基础类别(Base classes)学习能力的同时,显著增强了可学习提示对未见类别(New classes)的泛化能力。与直接优化提示不同,PRE引入一个提示编码器(prompt encoder)对输入提示嵌入进行重参数化,从而更有效地从少量样本中挖掘任务相关的知识。在8个基准数据集上的实验及广泛的消融研究结果表明,该方法在提示学习领域具有高效性。具体而言,在16样本设置下,PRE相较于CoOp在未见类别的平均准确率上提升了5.60%,在调和平均(Harmonic mean)指标上提升了3%,且所有性能提升均在合理训练时间内实现。