
摘要
当前,在计算机视觉任务中,当可用标注训练样本较少时,主流方法是基于大规模图像分类数据集(如ImageNet)预训练的权重进行微调。然而,迁移学习及其方法的应用往往呈现出一种僵化的二元模式:模型要么经过预训练,要么未经过预训练;预训练要么提升性能,要么导致性能下降(即所谓的“负迁移”)。在权重衰减方面,L2-SP正则化通常被用于将权重衰减至其预训练值,而另一种做法则是将所有权重衰减至零——二者非此即彼,缺乏中间状态。本文重新审视了上述假设,提出了一种非二元的迁移学习范式。基于广泛的实证评估,我们发现采用非二元策略能够显著提升性能。主要结论如下:(1)在每个独立数据集上实现最优性能,需要精细调整一系列通常被忽视的迁移学习超参数,包括:应迁移的网络层数、不同层采用不同的学习率,以及L2-SP正则化与L2正则化之间的不同组合方式。(2)可通过多种指标来衡量预训练权重与目标数据集的适配程度,从而指导最优超参数的选择。我们提出了一系列非二元迁移学习方法,包括将L2-SP与L2正则化相结合,以及开展非传统的微调超参数搜索策略。最后,我们总结出若干启发式规则,用于判断最优的迁移学习超参数配置。实验结果表明,采用非二元方法可使模型在多种传统上较难实现高效迁移的任务中,达到接近或超越当前最先进(SOTA)的性能水平,充分验证了该方法的有效性与优越性。