17일 전

비전 트랜스포머가 사전 훈련 또는 강력한 데이터 증강 없이 ResNet을 능가할 때

Xiangning Chen, Cho-Jui Hsieh, Boqing Gong
비전 트랜스포머가 사전 훈련 또는 강력한 데이터 증강 없이 ResNet을 능가할 때
초록

비전 트랜스포머(Vision Transformers, ViTs)와 MLP-Mixers는 수작업으로 설계된 특징 또는 유도적 편향(inductive biases)을 일반적인 신경망 아키텍처로 대체하려는 추가적인 노력의 결과로 나타났다. 기존의 연구들은 대량의 데이터를 통해 모델을 강화하며, 대규모 사전 훈련과/또는 반복적인 강력한 데이터 증강(data augmentation)을 활용하지만, 여전히 최적화 관련 문제(예: 초기화나 학습률에 대한 민감성)를 보고하고 있다. 따라서 본 논문은 손실 기하학(loss geometry)의 관점에서 ViTs와 MLP-Mixers를 탐구하여, 훈련 시 데이터 효율성을 향상시키고 추론 시 일반화 성능을 개선하고자 한다. 시각화 및 헤시안(Hessian) 분석을 통해 수렴한 모델이 극도로 날카로운 국소 최소값(local minima)을 가짐을 확인하였다. 최근 제안된 날카로움 인식 최적화기(sharpness-aware optimizer)를 활용하여 부드러움을 촉진함으로써, 감독 학습, 적대적 학습, 대조 학습, 전이 학습에 이르기까지 다양한 작업에서 ViTs와 MLP-Mixers의 정확도와 강건성을 크게 향상시켰다(예: 단순한 Inception 스타일 전처리를 사용했을 때, ViT-B/16과 Mixer-B/16의 ImageNet 상위 1 정확도가 각각 +5.3%, +11.0% 향상). 본 연구는 개선된 부드러움이 첫 몇 층에서 활성화되는 뉴런이 더 희소해지는 데 기인함을 보였다. 결과적으로, 대규모 사전 훈련이나 강력한 데이터 증강 없이 ImageNet에서 처음부터 훈련된 ViTs는 유사한 크기와 처리량을 가진 ResNet보다 우수한 성능을 발휘한다. 모델 체크포인트는 \url{https://github.com/google-research/vision_transformer}에서 제공된다.