11 天前

重新审视ResNets：改进的训练与扩展策略

Irwan Bello, William Fedus, Xianzhi Du, Ekin D. Cubuk, Aravind Srinivas, Tsung-Yi Lin, Jonathon Shlens, Barret Zoph

摘要

尽管新型计算机视觉架构备受关注，但模型架构的影响常与训练方法及扩展策略的同步变化混淆在一起。本文重新审视了经典的ResNet（He et al., 2015），系统研究了架构、训练方法与扩展策略三者之间的关系，旨在将它们解耦分析。出人意料的是，我们发现训练策略与扩展策略的影响可能超过架构本身的改进，且由此获得的ResNet模型性能已可媲美当前最先进的模型。我们进一步指出，最优的扩展策略取决于具体的训练范式，并提出两种新的扩展策略：（1）在容易发生过拟合的训练场景中，应优先增加模型深度（否则应采用宽度扩展）；（2）图像分辨率的提升速度应比以往建议的更缓慢（相较于Tan & Le, 2019的方案）。基于这些改进的训练与扩展策略，我们设计了一组新的ResNet架构——ResNet-RS。在TPU平台上，ResNet-RS的推理速度比EfficientNet快1.7至2.7倍，同时在ImageNet上的精度保持相当水平。在大规模半监督学习设置下，ResNet-RS在ImageNet上实现了86.2%的Top-1精度，且训练速度比EfficientNet NoisyStudent快4.7倍。所提出的训练技术显著提升了在一系列下游任务上的迁移性能，其表现可与当前最先进的自监督学习算法相媲美，并成功拓展至Kinetics-400视频分类任务。我们建议研究者在未来的工作中将这些经过简化优化的ResNet作为基准模型使用。