클래스 인식 기반 대비형 반감독학습

자기 생성된 가짜 레이블에 기반한 반감독 학습(SSL)은 원시 데이터의 활용 측면에서 큰 성공을 거두었다. 그러나 이러한 방법은 자기 생성 레이블 내에 포함된 노이즈로 인해 확인 편향(confirmation bias) 문제가 발생하며, 실제 환경에서 분포 외 데이터(out-of-distribution data)가 광범위하게 존재할 경우 모델의 판단 능력이 더욱 노이즈가 심해지는 문제가 있다. 이 문제를 해결하기 위해, 본 연구에서는 보편적인 방법론인 클래스 인식형 대조 반감독 학습(Class-aware Contrastive Semi-Supervised Learning, CCSSL)을 제안한다. 이 방법은 기존 학습 프로세스에 쉽게 통합 가능한 보조 기법으로, 가짜 레이블의 품질을 향상시키고 실제 환경에서의 모델의 견고성(로버스트성)을 강화하는 데 기여한다. 기존의 실세계 데이터를 단일 집합으로 취급하는 방식과는 달리, 본 방법은 클래스별 군집화를 통해 신뢰할 수 있는 분포 내 데이터(in-distribution data)를 다루고, 이미지별 대조 기법을 활용해 노이즈가 많은 분포 외 데이터(out-of-distribution data)를 별도로 처리함으로써, 더 나은 일반화 성능을 달성한다. 또한, 타겟 재가중(target re-weighting) 기법을 도입함으로써 깨끗한 레이블 학습을 강조하면서 동시에 노이즈가 있는 레이블 학습을 효과적으로 감소시켰다. 간단한 구조임에도 불구하고, 표준 데이터셋인 CIFAR100과 STL10에서 최신 기술 대비 뚜렷한 성능 향상을 보였으며, 실세계 데이터셋인 Semi-iNat 2021에서는 FixMatch 대비 9.80%, CoMatch 대비 3.18%의 성능 향상을 달성하였다. 코드는 다음과 같은 링크에서 공개되어 있다: https://github.com/TencentYoutuResearch/Classification-SemiCLS.