11일 전

대규모에서의 반감독 비전 트랜스포머

Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto
대규모에서의 반감독 비전 트랜스포머
초록

시각 변형기(Vision Transformer, ViT)를 위한 반감독 학습(Semi-Supervised Learning, SSL)은 다양한 작업에 널리 채택되고 있음에도 불구하고 여전히 탐색이 부족한 주제이다. 본 연구에서는 이 문제를 해결하기 위해, 먼저 비지도/자기지도 사전 학습을 수행한 후, 지도 미세 조정(supervised fine-tuning)을 거친 다음, 반감독 미세 조정(semi-supervised fine-tuning)을 수행하는 새로운 SSL 파이프라인을 제안한다. 반감독 미세 조정 단계에서는 기존의 인기 있는 FixMatch 대신 지수 이동 평균(Exponential Moving Average, EMA)-Teacher 프레임워크를 채택하였는데, 이는 반감독 시각 변형기 학습에서 더 안정적이며 높은 정확도를 제공하기 때문이다. 또한, 약한 내재적 편향(weak inductive bias)을 가진 ViT 모델의 훈련에 있어 중요한 정규화(regularization)를 향상시키기 위해, 미레이블링된 샘플과 그에 대한 의사 레이블(pseudo-label)을 확률적 의사 믹스업(probabilistic pseudo mixup) 기법을 통해 보간하는 새로운 메커니즘을 제안한다. 본 연구에서 제안하는 방법은 Semi-ViT라 명명되며, 반감독 분류 설정에서 기존의 CNN 기반 모델과 비교해 유사하거나 더 우수한 성능을 달성한다. 또한 Semi-ViT는 ViT가 가지는 확장성의 이점을 누리며, 데이터 양이 증가함에 따라 크기가 큰 모델로 쉽게 확장 가능하다. 예를 들어, Semi-ViT-Huge는 ImageNet 데이터셋에서 단 1%의 레이블만을 사용하여 80%의 top-1 정확도를 달성하였으며, 이는 100%의 ImageNet 레이블을 사용하는 Inception-v4와 비교해도 유사한 성능을 보인다.