6 个月前

计算机视觉

统一多模态

监督式微调

计算机视觉

Shuanghao Bai Yuedi Zhang Wanqi Zhou Zhirong Luan Badong Chen

摘要

大规模预训练视觉语言模型（VLMs）在下游任务中展现出出色的零样本能力，通常依赖于人工设计的提示（prompt）。为进一步提升VLMs在特定下游任务中的适应性，研究者提出了软提示（soft prompt）机制，以替代人工设计的提示，并基于特定领域数据进行微调。以往的提示学习方法主要从训练样本中学习固定提示或残差提示，然而这些方法所学习到的提示缺乏多样性，且未能有效利用未见领域（unseen domains）的信息。本文从生成式视角重新构建提示学习框架，提出一种简单而高效的领域泛化（Domain Generalization, DG）方法——软提示生成（Soft Prompt Generation, SPG）。具体而言，SPG包含两个训练阶段和一个推理阶段。在训练阶段，为每个领域引入软提示标签，旨在将生成模型所蕴含的领域知识融入提示学习过程；在推理阶段，利用生成模型中的生成器，为未见目标领域生成具有实例特性的软提示。在三个领域泛化任务的五个基准测试上进行的大量实验表明，SPG在性能上达到当前最优水平。相关代码已开源，地址为：https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

统一多模态

监督式微调

计算机视觉

Shuanghao Bai Yuedi Zhang Wanqi Zhou Zhirong Luan Badong Chen

摘要

大规模预训练视觉语言模型（VLMs）在下游任务中展现出出色的零样本能力，通常依赖于人工设计的提示（prompt）。为进一步提升VLMs在特定下游任务中的适应性，研究者提出了软提示（soft prompt）机制，以替代人工设计的提示，并基于特定领域数据进行微调。以往的提示学习方法主要从训练样本中学习固定提示或残差提示，然而这些方法所学习到的提示缺乏多样性，且未能有效利用未见领域（unseen domains）的信息。本文从生成式视角重新构建提示学习框架，提出一种简单而高效的领域泛化（Domain Generalization, DG）方法——软提示生成（Soft Prompt Generation, SPG）。具体而言，SPG包含两个训练阶段和一个推理阶段。在训练阶段，为每个领域引入软提示标签，旨在将生成模型所蕴含的领域知识融入提示学习过程；在推理阶段，利用生成模型中的生成器，为未见目标领域生成具有实例特性的软提示。在三个领域泛化任务的五个基准测试上进行的大量实验表明，SPG在性能上达到当前最优水平。相关代码已开源，地址为：https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供