3달 전

두 잘못이 옳은 것은 아니다: 레이블 노이즈를 가진 학습에서 확인 편향 극복하기

Mingcai Chen, Hao Cheng, Yuntao Du, Ming Xu, Wenyu Jiang, Chongjun Wang
두 잘못이 옳은 것은 아니다: 레이블 노이즈를 가진 학습에서 확인 편향 극복하기
초록

노이즈 있는 레이블은 딥 네트워크의 성능을 저하시킵니다. 강건한 학습을 위해 주목할 만한 이단계 파이프라인은 잘못된 레이블을 제거하고 반감독 학습을 번갈아 수행합니다. 그러나 일부 노이즈 레이블을 버리는 것은 정보 손실을 초래할 수 있으며, 특히 데이터에 따라 노이즈가 발생하는 경우(예: 클래스 종속적 또는 인스턴스 종속적 노이즈)에 더욱 심각합니다. 또한 대표적인 이단계 방법인 DivideMix의 학습 동역학을 분석한 결과, 확인 편향(confirmation bias)의 지배적 영향을 확인할 수 있었습니다. 즉, 의사 레이블(pseudo-label)이 상당량의 노이즈 레이블을 올바르게 수정하지 못하며, 그 결과 오류가 누적됩니다. 노이즈 레이블에서 정보를 충분히 활용하고 잘못된 수정을 완화하기 위해, 우리는 의사 레이블링과 신뢰도 추정 기법을 통합한 새로운 하이브리드 방법인 Robust Label Refurbishment(Robust LR)을 제안합니다. 본 연구에서는 제안한 방법이 레이블 노이즈와 확인 편향의 영향을 효과적으로 완화함을 보였으며, 다양한 데이터셋과 노이즈 유형에서 최신 기준(SOTA) 성능을 달성함을 입증했습니다. 특히 합성 노이즈가 다양한 수준으로 적용된 CIFAR, 그리고 실제 세계 노이즈를 포함한 Mini-WebVision과 ANIMAL-10N에서 뛰어난 성능을 보였습니다.