HyperAIHyperAI

Command Palette

Search for a command to run...

面向视觉-语言模型的领域无关提示学习

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

摘要

提示学习(Prompt Learning)是将强大的视觉-语言基础模型(如CLIP)适配至下游数据集的一种高效且热门的方法,其通过仅使用少量样本微调可学习的提示向量实现模型适应。然而,尽管提示学习在域内数据上表现优异,其在面对未见类别和未见领域时仍面临显著的泛化挑战。现有部分提示学习方法尝试通过为不同标记(tokens)或不同领域自适应生成差异化的提示来缓解该问题,但往往忽视了所学习提示在未见领域上的泛化能力。为此,本文提出一种新颖的提示学习范式——MetaPrompt,该方法直接生成具有域不变性(domain invariant)的提示,从而实现对未见领域的有效泛化。具体而言,我们设计了一种双模态提示调优网络,能够同时基于图像和文本模态输入生成提示。通过引入一种新颖的非对称对比损失(asymmetric contrastive loss),利用预训练视觉-语言模型原始输出的表示作为监督信号,有效增强所学习提示的泛化能力。更重要的是,我们提出一种基于元学习的提示调优算法,显式约束针对某一特定领域或类别的任务专属提示,同样能在其他领域或类别上取得良好性能。在11个基础到新类别(base-to-new)泛化任务数据集以及4个域泛化(domain generalization)数据集上的大量实验表明,所提方法在各项任务中均显著且一致地优于现有先进方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向视觉-语言模型的领域无关提示学习 | 论文 | HyperAI超神经