17 天前
用于低数据迁移学习的深度集成方法
Basil Mustafa, Carlos Riquelme, Joan Puigcerver, André Susano Pinto, Daniel Keysers, Neil Houlsby

摘要
在数据量有限的场景下,从零开始训练性能良好的监督模型极为困难。因此,实践者通常转而采用预训练模型,借助迁移学习来提升性能。集成学习(Ensembling)在理论和实证上均展现出构建强大预测模型的潜力,但目前主流方法——通过不同的随机初始化训练多个深度网络——与依赖预训练权重进行迁移学习的需求存在冲突。本文研究了如何基于预训练模型构建有效的集成模型。我们发现,预训练过程本身即可成为实现模型多样性的高效来源,并提出了一种实用算法,能够高效地为任意下游数据集筛选出一组最优的预训练模型。该方法简洁明了:首先利用最近邻分类准确率对预训练模型进行排序,随后对排名靠前的模型进行少量超参数调优,最后通过贪心策略构建集成模型以最小化验证集上的交叉熵损失。在19个不同的下游任务(基于视觉任务适应基准,Visual Task Adaptation Benchmark)上与多种强基线方法对比评估,该方法在显著更低的推理开销下实现了当前最优性能,即使在从超过2000个预训练模型中进行筛选的情况下依然表现优异。此外,我们在ImageNet的多种变体数据集上进一步评估了所提集成模型,结果表明其在面对分布偏移(distribution shift)时具有更强的鲁棒性。