
초록
반감독 학습은 레이블이 부족한 데이터에 대한 의존도를 줄이기 위해 레이블이 없는 데이터를 효과적으로 활용하는 중요한 학습 패러다임이다. 본 연구에서는 주류 기법들을 통합하고 기존 한계를 극복하는 새로운 반감독 학습 방법인 CoMatch를 제안한다. CoMatch는 학습 데이터에 대해 두 가지 표현을 동시에 학습한다. 하나는 클래스 확률이며, 다른 하나는 저차원 임베딩이다. 이 두 표현은 상호작용을 통해 공동으로 진화한다. 임베딩은 클래스 확률에 부드러움(스무딩) 제약을 부여함으로써 의사 레이블의 정확도를 향상시키고, 반면 의사 레이블은 그래프 기반 대조 학습을 통해 임베딩의 구조를 정규화한다. CoMatch는 여러 데이터셋에서 최신 기준(SOTA) 성능을 달성하며, 레이블이 극도로 부족한 CIFAR-10 및 STL-10에서 뚜렷한 정확도 향상을 보였다. ImageNet에서 레이블이 1%만 존재하는 조건에서도 CoMatch는 상위 1위 정확도 66.0%를 기록하며, FixMatch보다 12.6% 높은 성능을 보였다. 또한, 하류 작업에서의 표현 학습 성능에서도 감독 학습과 자기지도 학습을 모두 상회하는 우수한 성능을 보였다. 코드 및 사전 학습 모델은 https://github.com/salesforce/CoMatch 에서 제공된다.