UNICON: 일관된 선택과 대조 학습을 통한 레이블 노이즈 저항

감독 학습 기반의 딥러닝 방법은 대규모의 레이블이 부여된 데이터 저장소를 필요로 하므로, 레이블 노이즈는 피할 수 없다. 이러한 노이즈 데이터로 학습을 진행하면 딥 네트워크의 일반화 성능에 부정적인 영향을 미친다. 레이블 노이즈를 완화하기 위해 최근 최신 기법들은 일부 샘플 선택 메커니즘을 활용하여 가능한 깨끗한 데이터 하위집합을 선별한다. 이후, 선택되지 않은 샘플을 레이블이 없는 데이터로 간주하고, 표준적인 반감독 학습 방법을 적용하여 모델을 학습시킨다. 본 연구의 포괄적인 분석 결과, 현재의 샘플 선택 기법들이 어려운 클래스보다는 쉬운(빠르게 학습 가능한) 클래스의 샘플을 과도하게 선별하고, 상대적으로 어려운 클래스의 샘플은 배제하는 경향이 있음을 확인했다. 이는 선택된 깨끗한 데이터 집합 내에서 클래스 불균형을 초래하며, 특히 높은 레이블 노이즈 조건에서 성능 저하를 유발한다. 본 연구에서는 고도의 레이블 노이즈에 대해 강건한 성능을 보이는 간단하면서도 효과적인 샘플 선택 방법인 UNICON을 제안한다. 쉬운 샘플과 어려운 샘플 간의 비균형적인 선택 문제를 해결하기 위해, 확률 모델링이나 하이퍼파라미터 튜닝이 필요 없는 제한 없는 선택 메커니즘을 제안하며, 이는 젠슨-쇼너 확산(Jensen-Shannon divergence) 기반의 균일한 샘플 선택 전략을 활용한다. 또한, 노이즈 레이블의 기억화(memorization)를 추가로 억제하기 위해 대조 학습(contrastive learning) 기법을 선택 메커니즘과 결합한다. 다양한 벤치마크 데이터셋에서 수행한 광범위한 실험을 통해 UNICON의 효과성을 입증하였으며, 90%의 높은 노이즈율을 가진 CIFAR100 데이터셋에서 기존 최고 성능 기법 대비 11.4%의 성능 향상을 달성하였다. 본 연구의 코드는 공개되어 있으며, 연구자들의 활용이 가능하다.