17일 전
LongReMix: 노이즈 있는 레이블 환경에서 높은 신뢰도 샘플을 활용한 강건한 학습
Filipe R. Cordeiro, Ragav Sachdeva, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro

초록
딥 신경망 모델은 제한된 양의 레이블 노이즈에 대해 강건하지만, 높은 노이즈 비율 환경에서 노이즈 레이블을 기억하는 능력은 여전히 미해결 과제로 남아 있다. 현재 가장 경쟁력 있는 노이즈 레이블 학습 알고리즘은 두 단계 과정을 기반으로 한다. 첫 번째 단계는 비지도 학습을 통해 학습 샘플을 ‘청정(정상)’ 또는 ‘노이즈’로 분류하고, 두 번째 단계에서는 청정으로 분류된 샘플들로 구성된 레이블된 집합과 노이즈로 분류된 샘플들로 구성된 비레이블 집합을 활용하여 경험적 연속 위험(Empirical Vicinal Risk, EVR)을 최소화하는 반지도 학습을 수행한다. 본 논문에서는 이러한 두 단계 노이즈 레이블 학습 방법의 일반화 성능이 비지도 분류기의 정밀도와 학습 데이터셋 크기에 의존할 것이라 가정한다. 우리는 이러한 두 가설을 실험적으로 검증하고, 새로운 두 단계 노이즈 레이블 학습 알고리즘인 LongReMix을 제안한다. LongReMix은 노이즈 레이블 기준 데이터셋인 CIFAR-10, CIFAR-100, WebVision, Clothing1M, Food101-N에서 평가되었으며, 그 결과 기존의 경쟁 방법들에 비해 특히 높은 레이블 노이즈 환경에서 더 우수한 일반화 성능을 보였다. 또한, 대부분의 데이터셋에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성하였다. 코드는 https://github.com/filipe-research/LongReMix 에서 공개되어 있다.