17일 전
에러 경계가 있는 노이즈 레이블 보정
Songzhu Zheng, Pengxiang Wu, Aman Goswami, Mayank Goswami, Dimitris Metaxas, Chao Chen
초록
대규모의 태그가 부여된 데이터를 수집하기 위해서는 레이블 노이즈(즉, 잘못된 클래스 레이블)를 피하는 것이 불가능하다. 레이블 노이즈에 강건한 성능을 발휘하기 위해 많은 성공적인 방법들이 노이즈가 포함된 분류기(즉, 노이즈가 있는 학습 데이터로 훈련된 모델)를 활용하여 학습 데이터의 레이블이 신뢰할 수 있는지 여부를 판단한다. 그러나 이러한 휴리스틱이 실제로 잘 작동하는 이유는 여전히 명확하지 않았다. 본 논문에서는 이러한 방법들에 대한 최초의 이론적 설명을 제시한다. 우리는 노이즈가 있는 분류기의 예측이 실제로 학습 데이터의 레이블이 정제된 상태인지 여부를 잘 나타낼 수 있음을 증명한다. 이 이론적 결과를 바탕으로, 노이즈가 있는 분류기의 예측을 기반으로 레이블을 보정하는 새로운 알고리즘을 제안한다. 보정된 레이블은 높은 확률로 진정한 베이지안 최적 분류기와 일치하게 된다. 제안된 레이블 보정 알고리즘을 딥 신경망의 훈련 과정에 통합하여, 여러 공개 데이터셋에서 우수한 테스트 성능을 달성하는 모델을 학습하였다.