OpenMatch: 오픈세트 반감독 학습을 위한 오픈세트 일관성 정규화

반감독 학습(Semi-supervised learning, SSL)은 레이블이 없는 데이터를 효과적으로 활용하여 모델의 성능을 향상시키는 유용한 방법이다. 전통적인 SSL 방법들인 FixMatch와 같은 기법들은 레이블이 붙은 데이터와 레이블이 없는 데이터가 동일한 레이블 공간을 공유한다고 가정한다. 그러나 실제 상황에서는 레이블이 없는 데이터에 레이블된 데이터셋에 존재하지 않는 카테고리, 즉 이상치(outliers)가 포함될 수 있으며, 이러한 이상치는 SSL 알고리즘의 성능에 심각한 영향을 미칠 수 있다. 이 문제를 해결하기 위해 우리는 새로운 오픈셋 반감독 학습(Open-set Semi-Supervised Learning, OSSL) 접근법인 OpenMatch를 제안한다. OSSL의 성공을 위해서는 정상 데이터(inliers)의 표현을 학습하면서 동시에 이상치를 거부하는 것이 핵심이다. 이를 위해 OpenMatch는 FixMatch를 하나의 클래스에 대해 나머지 모든 클래스를 구분하는 one-vs-all(OVA) 분류기 기반의 새로운 탐지 기법과 통합한다. OVA 분류기는 샘플이 정상 데이터(inlier)일 가능성에 대한 신뢰도 점수(confidence score)를 출력하며, 이를 기반으로 이상치 탐지를 위한 임계값(threshold)을 설정할 수 있다. 또 다른 주요 기여는 입력 변환에 대해 OVA 분류기의 매끄러움(smoothness)을 강화하는 오픈셋 소프트 일관성 정규화 손실(loss)이다. 이는 이상치 탐지 성능을 크게 향상시킨다. 제안한 방법은 세 가지 데이터셋에서 최신 기준(SOTA) 성능을 달성하였으며, 특히 CIFAR10에서 레이블이 없는 데이터에 존재하지 않은 새로운 이상치를 탐지하는 데 있어 전적으로 감독 학습 모델을 초월하는 성능을 보였다. 코드는 https://github.com/VisionLearningGroup/OP_Match 에 공개되어 있다.