DP-SSL: 적은 수의 레이블 데이터를 통한 강건한 반감독 학습으로의 도전

라벨링된 데이터의 부족은 딥러닝의 핵심적인 장애 요인이다. 반감독 학습(Semi-supervised Learning, SSL)은 가짜 레이블(pseudo labels)을 활용하여 레이블되지 않은 데이터를 효과적으로 활용할 수 있는 유망한 접근 방식을 제공한다. 그러나 레이블된 데이터의 크기가 매우 작을 경우(예: 클래스당 몇 개의 레이블 샘플만 존재할 때), 기존의 SSL 방법은 성능이 낮고 불안정해지는 경향이 있으며, 이는 학습된 가짜 레이블의 품질이 낮기 때문일 가능성이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 SSL 방법인 DP-SSL을 제안한다. DP-SSL은 레이블되지 않은 데이터에 대해 확률적 레이블을 생성하기 위해 혁신적인 데이터 프로그래밍(Data Programming, DP) 방식을 도입한다. 기존의 DP 방법은 인간 전문가가 초기 레이블링 함수(Labeling Functions, LFs)를 제공하는 데 의존하지만, 본 연구에서는 SSL 방식에 맞춰 레이블링 함수를 처음부터 자동으로 생성할 수 있는 다중 선택 학습(Multiple-Choice Learning, MCL) 기반의 접근법을 개발하였다. LFs에 의해 생성된 노이즈가 포함된 레이블을 바탕으로, 충돌과 중복을 해결하기 위한 레이블 모델을 설계하였으며, 최종적으로 레이블되지 않은 샘플에 대해 확률적 레이블을 추론한다. 네 가지 표준 SSL 벤치마크에서 실시한 광범위한 실험 결과에 따르면, DP-SSL은 레이블되지 않은 데이터에 대해 신뢰할 수 있는 레이블을 제공하며, 특히 레이블된 샘플이 매우 적은 상황에서도 기존의 SSL 방법보다 더 뛰어난 분류 성능을 달성한다. 구체적으로, CIFAR-10 데이터셋에서 레이블된 샘플이 단 40개인 조건에서도 DP-SSL은 레이블되지 않은 데이터에 대해 93.82%의 레이블 정확도와 테스트 데이터에 대해 93.46%의 분류 정확도를 기록하며, 기존의 최고 성능(SOTA) 결과를 초과하였다.