
초록
우리는 깊이 있는 반감독 학습을 위한 간단하면서도 효과적인 방법인 크로스뷰 트레이닝(Cross-View Training, CVT)을 제안한다. 레이블이 붙은 예시에 대해서는 표준 크로스엔트로피 손실을 사용하여 모델을 훈련한다. 레이블이 없는 예시에 대해서는 모델이 먼저 추론을 수행(즉, '선생님' 역할 수행)하여 소프트 타겟을 생성한다. 이후 모델은 이 소프트 타겟을 학습 대상으로 삼으며(즉, '학생' 역할 수행). 기존 연구와 달리, 본 모델에 여러 개의 보조 학생 예측 레이어를 추가한다. 각 학생 레이어의 입력은 전체 모델의 하위 네트워크로, 입력에 대해 제한된 시야(예: 이미지의 특정 영역만 관찰)를 갖는다. 학생들은 전체 모델(선생님)이 각 예시의 더 많은 정보를 볼 수 있기 때문에 선생님으로부터 학습할 수 있다. 동시에, 학생들은 제한된 데이터로 예측을 수행하도록 학습하면서 선생님의 표현 품질을 향상시킨다. 가상 대립 훈련(Virtual Adversarial Training)과 결합할 경우, CVT는 반감독 학습 기반의 CIFAR-10 및 SVHN에서 현재 최고 성능을 넘어서는 성과를 달성한다. 또한, 수억 개의 레이블 없는 문장 데이터를 활용하여 다섯 가지 자연어 처리 작업에서 모델을 훈련하는 데에도 CVT를 적용하였다. 모든 작업에서 CVT는 단순 감독 학습에 비해 상당히 뛰어난 성능을 보였으며, 현재 최고 수준의 모델과 비견되거나 이를 초월하는 결과를 얻었다.