HyperAIHyperAI

Command Palette

Search for a command to run...

自监督视觉Transformer的视觉提示调优改进

Seungryong Yoo Eunji Kim Dahuin Jung Jungbeom Lee Sungroh Yoon

摘要

视觉提示调优(Visual Prompt Tuning, VPT)是一种高效的方法,可用于将预训练的视觉Transformer(Vision Transformers, ViTs)适配至下游任务。该方法通过引入可学习的额外标记(即“提示”标记),引导冻结的预训练ViT模型进行任务适应。尽管VPT在监督学习的视觉Transformer中已展现出良好的适用性,但在自监督学习的ViT模型上通常表现欠佳。通过实验观察,我们发现VPT的有效性在很大程度上取决于提示标记与之交互的ViT模块位置。具体而言,当提示标记被插入到MAE和MoCo v3等自监督ViT模型的较深层块中,而非首层块时,其在图像分类任务上的性能显著提升。这些发现表明,提示标记的插入位置存在一个最优的模块区间。然而,在面对多样化的未来应用场景时,为每种自监督ViT模型手动识别最优提示插入位置是一项成本高昂的过程。为缓解这一问题,我们提出一种简单而高效的新方法:为每个ViT模块学习一个门控机制(gate),以动态调节该模块对提示标记的干预程度。借助该方法,提示标记仅受到那些在任务适配中确实需要被引导的模块的影响,从而实现更精准的调控。实验结果表明,该方法在细粒度视觉分类(FGVC)、VTAB图像分类以及ADE20K语义分割任务上均显著优于现有的VPT变体。相关代码已开源,地址为:https://github.com/ryongithub/GatedPromptTuning


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供