17 天前

PVP:预训练视觉参数高效微调

Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao, Qingyong Hu
PVP:预训练视觉参数高效微调
摘要

大规模预训练的Transformer模型在各类计算机视觉任务中已展现出卓越的性能。然而,由于其计算与存储成本高昂,直接对这些模型进行全量微调在下游任务中仍面临巨大挑战。近年来,参数高效微调(Parameter-Efficient Tuning, PETuning)技术,如视觉提示微调(Visual Prompt Tuning, VPT)和低秩适应(Low-Rank Adaptation, LoRA),通过在预训练模型中插入轻量级提示模块,并仅训练少量可学习参数,同时冻结Transformer主干网络,显著降低了计算与存储开销。尽管所需调整的参数极少,但大多数PETuning方法仍需大量下游任务数据才能取得良好效果,在低数据场景下表现不佳,尤其是在每类仅有单个或两个样本的情况下性能明显不足。针对这一问题,我们首先通过实证研究发现,性能不佳的主要原因在于提示模块的初始化方式不当,这一现象在预训练语言模型中也已得到验证。为此,我们提出一种名为预训练视觉参数高效微调(Pre-trained Visual Parameter-efficient Tuning, PVP)的新框架:该框架首先对参数高效微调模块进行预训练,随后将预训练的提示模块与预训练的Transformer主干网络结合,用于下游任务的参数高效微调。在五个细粒度视觉分类(Fine-Grained Visual Classification, FGVC)数据集以及VTAB-1k数据集上的实验结果表明,所提出的方法显著优于当前最先进的PETuning方法,在低数据条件下展现出更强的泛化能力与鲁棒性。