6 个月前

摘要

近年来，视觉模型的规模呈指数级增长，尤其是在视觉Transformer（Vision Transformer）出现之后。这一趋势推动了参数高效微调方法的发展，例如学习适配器层（adapter layers）或视觉提示令牌（visual prompt tokens），这些方法仅需训练模型中极小比例的参数，而绝大多数来自预训练的参数则保持冻结状态。然而，设计一种有效的微调方法并非易事：研究者往往需要尝试大量设计选项，且每个下游数据集通常都需要量身定制的方案。本文将现有的参数高效微调方法视为“提示模块”（prompt modules），并提出一种名为神经提示搜索（Neural prOmpt seArcH, NOAH）的新方法。该方法通过神经架构搜索算法，为大型视觉模型在每个下游数据集上自动学习最优的提示模块结构。在超过20个视觉数据集上的大量实验表明，NOAH具备以下优势：（i）优于单一提示模块；（ii）具有出色的少样本学习能力；（iii）具备良好的跨领域泛化能力。相关代码与模型已开源，地址为：https://github.com/Davidzhangyuanhan/NOAH。

源 PDF