17일 전

이미지 분류를 위한 강건하고 실시간 데이터셋 노이즈 제거

Jiaming Song, Lunjia Hu, Michael Auli, Yann Dauphin, Tengyu Ma
이미지 분류를 위한 강건하고 실시간 데이터셋 노이즈 제거
초록

과도하게 파라미터화된 신경망에서는 잘못 레이블이 지정된 예시가 존재하는 상황에서 기억화(memorization)가 일반화 성능을 심각하게 저하시킬 수 있다. 그러나 약한 감독(weak supervision)을 통해 수집된 극도로 큰 데이터셋에서는 잘못 레이블이 지정된 예시를 피하는 것이 매우 어렵다. 본 연구는 실제 예시로 학습된 경우와 동일한 조건에서 균일한 무작위 레이블을 가진 예시들의 손실 분포를 반사적(Counterfactual) 사고를 통해 분석하고, 이를 통해 학습 데이터셋에서 노이즈를 제거하는 방식으로 이 문제를 해결한다. 먼저, 큰 학습률 하에서 확률적 경사 하강법(stochastic gradient descent)으로 학습할 경우, 균일한 무작위 레이블을 가진 예시들이 더 높은 손실을 보임을 관찰한다. 그 다음, 네트워크 파라미터만을 사용하여 이러한 반사적 예시들의 손실 분포를 모델링하는 방법을 제안하며, 이는 매우 뛰어난 성능으로 이러한 예시들을 성공적으로 모델링할 수 있다. 마지막으로, 모델링된 손실 분포의 특정 분위수를 초과하는 예시들을 학습 데이터에서 제거하는 전략을 제안한다. 이를 통해 '실시간 데이터 정제(On-the-fly Data Denoising, ODD)'라는 간단하면서도 효과적인 알고리즘을 도입한다. 이 알고리즘은 잘못 레이블이 지정된 예시에 대해 매우 강건하며, 기존 표준 학습에 비해 거의 무시할 수 없는 계산 오버헤드를 유발한다. ODD는 WebVision 및 Clothing1M과 같은 실제 세계 데이터셋을 포함하여 다양한 데이터셋에서 최신 기준(SOTA) 수준의 성능을 달성할 수 있다.