ProMix: 레이블 노이즈 극복을 위한 클린 샘플 유용성 극대화 기법

노이즈 있는 레이블을 가진 데이터를 활용한 학습(Learning with Noisy Labels, LNL)은 잘못된 레이블이 포함된 데이터를 상대적으로 저비용으로 확보할 수 있다는 점에서 주목받는 주제가 되었다. 최근의 최첨단 접근법들은 깨끗한 샘플과 노이즈가 포함된 샘플을 구분하기 위해 특정한 선택 기법을 활용한 후, 성능 향상을 위해 반감독학습(Semi-Supervised Learning, SSL) 기법을 적용한다. 그러나 기존의 선택 절차는 일반적으로 중간 크기이면서도 충분히 우수한 깨끗한 샘플 서브셋을 제공할 뿐, 풍부한 양의 깨끗한 샘플을 충분히 활용하지 못하는 한계가 있다. 이러한 문제를 해결하기 위해, 본 연구는 성능 향상을 위해 깨끗한 샘플의 활용도를 극대화하는 새로운 LNL 프레임워크 ProMix를 제안한다. 본 방법의 핵심은, 주어진 레이블과 일치하는 예측 결과를 보이는 고신뢰도 점수를 가진 예시들을 동적으로 선택하여 기본 깨끗한 샘플 집합을 확장하는 ‘일치하는 고신뢰도 선택 기법’을 제안하는 것이다. 또한, 과도한 깨끗한 샘플 선택이 초래할 수 있는 부작용을 완화하기 위해, 분리된 깨끗한 샘플과 노이즈가 포함된 샘플을 기반으로 균형 잡히고 편향이 없는 분류기를 학습할 수 있는 새로운 SSL 프레임워크를 추가로 설계하였다. 광범위한 실험 결과를 통해 ProMix가 다양한 노이즈 유형과 수준을 가진 여러 벤치마크에서 현재 최고 성능을 크게 상회함을 입증하였다. 특히 CIFAR-N 데이터셋에서 평균 2.48%의 성능 향상을 달성하였다. 코드는 https://github.com/Justherozen/ProMix 에서 공개되어 있다.