ResNetの再検討:訓練およびスケーリング戦略の改善

新しいコンピュータビジョンアーキテクチャが注目を集める一方で、モデルアーキテクチャの影響は、同時に進展した学習手法やスケーリング戦略と混同されがちである。本研究では、代表的なResNet(He et al., 2015)に再び注目し、アーキテクチャ、学習手法、スケーリング戦略の三つの側面を明確に分離して検証した。驚くべきことに、アーキテクチャの変更よりも学習手法やスケーリング戦略の影響がより大きいことが明らかになった。さらに、これらの手法を用いて得られたResNetは、最新の最先端モデルと同等の性能を達成した。本研究では、最適なスケーリング戦略が学習設定に依存することを示し、新たな二つのスケーリング戦略を提案する。第一に、過学習が発生しうる設定ではモデルの深さを拡張することが有効であり(その他の状況では幅の拡張が望ましい);第二に、画像解像度の向上を従来の提案(Tan & Le, 2019)よりも緩やかに行うことが効果的である。これらの改良された学習およびスケーリング戦略を活用して、ResNet-RSと名付けられた一連のResNetアーキテクチャを設計した。TPU上で評価した結果、EfficientNetと比較して1.7倍~2.7倍の高速化を達成しつつ、ImageNetでの精度は同等を維持した。大規模な半教師付き学習環境において、ResNet-RSはImageNet Top-1精度86.2%を達成し、EfficientNet NoisyStudentと比べて4.7倍の高速化を実現した。また、これらの学習技術は、下流タスクにおける転移学習性能を向上させ(最新の自己教師付き学習アルゴリズムと競合)、Kinetics-400における動画分類にも拡張可能である。本研究では、今後の研究における基準として、これらの簡潔かつ改良されたResNetの採用を研究者に推奨する。