ResNet의 재검토: 개선된 훈련 및 스케일링 전략

새로운 컴퓨터 비전 아키텍처들이 주목을 받고 있지만, 모델 아키텍처의 영향은 훈련 방법론과 규모 확장 전략의 동시적 변화와 혼동되기 쉽다. 본 연구는 전통적인 ResNet(He 등, 2015)을 재검토하여 이 세 가지 요소를 분리하여 분석한다. 놀랍게도, 훈련 및 규모 확장 전략이 아키텍처 변화보다 더 중요한 영향을 미칠 수 있음을 발견하였으며, 특히 이러한 방법론을 적용한 최적화된 ResNet은 최근의 최첨단 모델과 유사한 성능을 달성함을 보였다. 우리는 최적의 확장 전략이 훈련 제도에 따라 달라진다는 점을 입증하고, 두 가지 새로운 확장 전략을 제안한다: (1) 과적합이 발생할 수 있는 훈련 환경에서는 모델의 깊이를 늘리는 것이 바람직하며, 그 외의 경우 너비 확장이 더 유리하다; (2) 기존의 권고사항보다 이미지 해상도를 더 천천히 증가시켜야 한다(Tan & Le, 2019). 개선된 훈련 및 확장 전략을 활용하여, 우리는 ResNet-RS라는 새로운 ResNet 아키텍처 계열을 설계하였으며, 이는 TPU에서 EfficientNet보다 1.7배에서 2.7배 빠르면서도 ImageNet에서 유사한 정확도를 달성한다. 대규모 반감독 학습 환경에서 ResNet-RS는 ImageNet의 top-1 정확도 86.2%를 기록하며, EfficientNet NoisyStudent보다 4.7배 빠른 속도를 보였다. 이러한 훈련 기법은 다양한 하류 작업에서의 전이 성능을 향상시켜 최첨단 자기지도 학습 알고리즘과 경쟁할 수 있으며, Kinetics-400 영상 분류 작업에도 성공적으로 확장된다. 본 연구는 향후 연구를 위한 기준 모델로 간단히 개선된 ResNet을 실무자들에게 추천한다.