이미지 분류를 위한 강건하고 실시간 데이터셋 노이즈 제거

과도하게 파라미터화된 신경망에서는 잘못 레이블이 지정된 예시가 존재하는 상황에서 기억화(memorization)가 일반화 성능을 심각하게 저하시킬 수 있다. 그러나 약한 감독(weak supervision)을 통해 수집된 극도로 큰 데이터셋에서는 잘못 레이블이 지정된 예시를 피하는 것이 매우 어렵다. 본 연구는 실제 예시로 학습된 경우와 동일한 조건에서 균일한 무작위 레이블을 가진 예시들의 손실 분포를 반사적(Counterfactual) 사고를 통해 분석하고, 이를 통해 학습 데이터셋에서 노이즈를 제거하는 방식으로 이 문제를 해결한다. 먼저, 큰 학습률 하에서 확률적 경사 하강법(stochastic gradient descent)으로 학습할 경우, 균일한 무작위 레이블을 가진 예시들이 더 높은 손실을 보임을 관찰한다. 그 다음, 네트워크 파라미터만을 사용하여 이러한 반사적 예시들의 손실 분포를 모델링하는 방법을 제안하며, 이는 매우 뛰어난 성능으로 이러한 예시들을 성공적으로 모델링할 수 있다. 마지막으로, 모델링된 손실 분포의 특정 분위수를 초과하는 예시들을 학습 데이터에서 제거하는 전략을 제안한다. 이를 통해 '실시간 데이터 정제(On-the-fly Data Denoising, ODD)'라는 간단하면서도 효과적인 알고리즘을 도입한다. 이 알고리즘은 잘못 레이블이 지정된 예시에 대해 매우 강건하며, 기존 표준 학습에 비해 거의 무시할 수 없는 계산 오버헤드를 유발한다. ODD는 WebVision 및 Clothing1M과 같은 실제 세계 데이터셋을 포함하여 다양한 데이터셋에서 최신 기준(SOTA) 수준의 성능을 달성할 수 있다.