대규모에서의 반감독 비전 트랜스포머

시각 변형기(Vision Transformer, ViT)를 위한 반감독 학습(Semi-Supervised Learning, SSL)은 다양한 작업에 널리 채택되고 있음에도 불구하고 여전히 탐색이 부족한 주제이다. 본 연구에서는 이 문제를 해결하기 위해, 먼저 비지도/자기지도 사전 학습을 수행한 후, 지도 미세 조정(supervised fine-tuning)을 거친 다음, 반감독 미세 조정(semi-supervised fine-tuning)을 수행하는 새로운 SSL 파이프라인을 제안한다. 반감독 미세 조정 단계에서는 기존의 인기 있는 FixMatch 대신 지수 이동 평균(Exponential Moving Average, EMA)-Teacher 프레임워크를 채택하였는데, 이는 반감독 시각 변형기 학습에서 더 안정적이며 높은 정확도를 제공하기 때문이다. 또한, 약한 내재적 편향(weak inductive bias)을 가진 ViT 모델의 훈련에 있어 중요한 정규화(regularization)를 향상시키기 위해, 미레이블링된 샘플과 그에 대한 의사 레이블(pseudo-label)을 확률적 의사 믹스업(probabilistic pseudo mixup) 기법을 통해 보간하는 새로운 메커니즘을 제안한다. 본 연구에서 제안하는 방법은 Semi-ViT라 명명되며, 반감독 분류 설정에서 기존의 CNN 기반 모델과 비교해 유사하거나 더 우수한 성능을 달성한다. 또한 Semi-ViT는 ViT가 가지는 확장성의 이점을 누리며, 데이터 양이 증가함에 따라 크기가 큰 모델로 쉽게 확장 가능하다. 예를 들어, Semi-ViT-Huge는 ImageNet 데이터셋에서 단 1%의 레이블만을 사용하여 80%의 top-1 정확도를 달성하였으며, 이는 100%의 ImageNet 레이블을 사용하는 Inception-v4와 비교해도 유사한 성능을 보인다.