
초록
비전 트랜스포머(Vision Transformer, ViT)와 같은 주의 기반 신경망은 최근 다양한 컴퓨터 비전 벤치마크에서 최첨단 성능을 달성하였다. 성능 향상에 있어 규모(scale)는 핵심 요소이며, 따라서 모델의 규모 확장 특성을 이해하는 것은 미래 세대 모델을 효과적으로 설계하는 데 필수적이다. 기존에는 트랜스포머 기반 언어 모델의 확장 법칙이 연구되었지만, 비전 트랜스포머(ViT)의 확장 특성에 대해서는 알려진 바가 없다. 이를 해결하기 위해 우리는 ViT 모델과 데이터를 모두 증가시키고 감소시키며, 오류율, 데이터 양, 계산 자원 간의 관계를 체계적으로 분석하였다. 이 과정에서 ViT의 아키텍처와 학습 방법을 개선하여 메모리 사용량을 감소시키고 모델의 정확도를 높였다. 그 결과, 20억 파라미터를 가진 ViT 모델을 성공적으로 학습하였으며, ImageNet에서 90.45%의 top-1 정확도를 달성하여 새로운 최고 성능을 기록하였다. 또한, 소량 예시 전이(few-shot transfer) 상황에서도 뛰어난 성능을 보였으며, 클래스당 예시가 단 10개인 경우에도 ImageNet에서 84.86%의 top-1 정확도를 달성하였다.