Swin Transformer V2: 용량 및 해상도 확장하기

대규모 자연어처리(NLP) 모델은 포화 현상 없이 언어 작업에서 성능을 크게 향상시킬 수 있음이 입증되었으며, 인간과 유사한 뛰어난 소수 샘플(few-shot) 능력도 보여준다. 본 논문은 컴퓨터 비전 분야에서 대규모 모델의 가능성을 탐구한다. 대규모 비전 모델의 훈련 및 응용 과정에서 발생하는 세 가지 주요 문제—훈련 불안정성, 사전 훈련과 미세 조정 사이의 해상도 갭, 레이블링된 데이터에 대한 과도한 요구—를 해결하기 위해 세 가지 주요 기술을 제안한다. 첫째, 훈련 안정성을 향상시키기 위해 잔차-포스트-노름(residual-post-norm) 방법과 코사인 어텐션(cosine attention)을 결합한 기법을 제안한다. 둘째, 저해상도 이미지로 사전 훈련된 모델을 고해상도 입력을 갖는 하류 작업으로 효과적으로 전이하기 위해 로그 간격 연속 위치 편향(log-spaced continuous position bias) 기법을 도입한다. 셋째, 광범위한 레이블링된 이미지에 대한 의존도를 줄이기 위해 자기지도 학습(self-supervised) 사전 훈련 기법인 SimMIM을 제안한다. 이러한 기법들을 통해 본 논문은 현재까지 가장 큰 밀집 구조(dense) 비전 모델인 파라미터 수 30억 개의 Swin Transformer V2 모델을 성공적으로 훈련하였으며, 최대 1,536×1,536 해상도의 이미지로도 훈련이 가능하게 했다. 이 모델은 ImageNet-V2 이미지 분류, COCO 객체 탐지, ADE20K 세그멘테이션, Kinetics-400 비디오 동작 분류 등 네 가지 대표적인 비전 작업에서 새로운 성능 기록을 수립했다. 또한, 구글의 빌리언 레벨 비전 모델보다 훨씬 효율적인 훈련이 가능함을 확인하였으며, 레이블링된 데이터 사용량과 훈련 시간이 각각 40배 적게 소요되었다. 코드는 \url{https://github.com/microsoft/Swin-Transformer}에서 공개되어 있다.