16 天前
自监督视觉Transformer的视觉提示调优改进
Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon

摘要
视觉提示调优(Visual Prompt Tuning, VPT)是一种高效的方法,可用于将预训练的视觉Transformer(Vision Transformers, ViTs)适配至下游任务。该方法通过引入可学习的额外标记(即“提示”标记),引导冻结的预训练ViT模型进行任务适应。尽管VPT在监督学习的视觉Transformer中已展现出良好的适用性,但在自监督学习的ViT模型上通常表现欠佳。通过实验观察,我们发现VPT的有效性在很大程度上取决于提示标记与之交互的ViT模块位置。具体而言,当提示标记被插入到MAE和MoCo v3等自监督ViT模型的较深层块中,而非首层块时,其在图像分类任务上的性能显著提升。这些发现表明,提示标记的插入位置存在一个最优的模块区间。然而,在面对多样化的未来应用场景时,为每种自监督ViT模型手动识别最优提示插入位置是一项成本高昂的过程。为缓解这一问题,我们提出一种简单而高效的新方法:为每个ViT模块学习一个门控机制(gate),以动态调节该模块对提示标记的干预程度。借助该方法,提示标记仅受到那些在任务适配中确实需要被引导的模块的影响,从而实现更精准的调控。实验结果表明,该方法在细粒度视觉分类(FGVC)、VTAB图像分类以及ADE20K语义分割任务上均显著优于现有的VPT变体。相关代码已开源,地址为:https://github.com/ryongithub/GatedPromptTuning。