一次性预训练(Pre-training Once,简称 POA)是蚂蚁集团于 2024 年在论文「POA: Pre-training Once for Models of All Sizes」中提出的一种的三分支自监督训练框架,通过引入弹性学生分支,在每次预训练步骤中随机采样子网络进行训练。 POA 能够在单次预训练中生成多种尺寸的模型,适用于下游任务,实验证明其在多个任务上达到最先进性能。
大规模自监督预训练为一个基础模型处理许多不同的视觉任务铺平了道路。大多数预训练方法一次只训练一个特定大小的模型。然而,现实场景中的各种计算或存储约束需要大量努力来开发一系列不同大小的模型以供部署。该研究解决了以上问题。
将创新的弹性学生分支引入现代自我提炼范式。在每个预训练步骤中,研究团队从原始学生中随机抽取一个子网络来形成弹性学生,并以自我提炼的方式训练所有分支。一旦预训练完成,POA 就可以提取不同大小的预训练模型用于下游任务。值得注意的是,弹性学生促进了不同大小的多个模型的同时预训练,这也充当了各种大小模型的额外集合,以增强表征学习。大量实验(包括 k-最近邻、线性探测评估和对多个下游任务的评估)证明了该研究的 POA 的有效性和优势。它使用 ViT 、 Swin Transformer 和 ResNet 主干实现了最先进的性能,通过单个预训练会话生成了大约一百个不同大小的模型。