대규모 자기지도 학습 모델은 강력한 반지도 학습자이다

라벨이 적은 예시로부터 학습하면서 대량의 레이블이 없는 데이터를 최대한 효율적으로 활용하는 한 가지 패러다임은 비지도 사전학습(unsupervised pretraining) 후에 지도적 미세조정(supervised fine-tuning)을 수행하는 것이다. 이 패러다임은 레이블이 없는 데이터를 작업에 관계없이 사용하는 방식을 취하지만, 컴퓨터 비전 분야에서 일반적으로 사용되는 반지도 학습(semi-supervised learning) 접근법과는 달리, ImageNet에서 반지도 학습에 매우 놀랍게 효과적임을 보여준다. 본 연구의 핵심 요소는 사전학습 및 미세조정 단계에서 대규모(깊고 넓은) 네트워크를 사용하는 것이다. 우리는 레이블이 적을수록, 즉 레이블이 적은 환경에서 이 접근법(레이블이 없는 데이터의 작업 무관한 사용)이 더 큰 네트워크를 통해 더 큰 이점을 얻는다는 것을 발견했다. 미세조정 이후, 레이블이 없는 예시를 다시 사용하여 작업에 특화된 방식으로 모델을 정교화하고, 더 작은 네트워크로 정제(distillation)함으로써 분류 정확도의 손실이 거의 없이 성능을 향상시킬 수 있다. 제안하는 반지도 학습 알고리즘은 세 단계로 요약할 수 있다: SimCLRv2를 이용한 대규모 ResNet 모델의 비지도 사전학습, 소량의 레이블 데이터에 대한 지도적 미세조정, 그리고 레이블이 없는 예시를 활용한 작업 특화 지식의 정교화 및 전이를 위한 정제 과정. 이 절차를 통해 ResNet-50을 사용할 경우, 전체 레이블의 1%만(클래스당 최대 13개의 레이블 이미지)을 사용해 ImageNet의 top-1 정확도가 73.9%에 달하며, 이는 이전 최고 성능 대비 레이블 효율성에서 10배 향상된 결과이다. 또한 레이블의 10%만을 사용했을 때, 본 방법으로 훈련된 ResNet-50은 전체 레이블을 사용한 전통적인 지도 학습보다 더 높은 77.5%의 top-1 정확도를 달성한다.