인스턴스에 의존하는 레이블 노이즈를 이용한 학습: 샘플 세이브 접근법

인간이 라벨링한 데이터는 일반적으로 노이즈에 취약하며, 이러한 노이즈는 최종적으로 생성되는 딥 신경망(DNN) 모델의 성능을 저하시킬 수 있다. 기존의 많은 연구(최근 몇 가지 예외를 제외하고)는 라벨 노이즈가 특징(feature)과 독립적인 경우에 초점을 맞추고 있다. 그러나 현실적으로는 라벨 오류가 예시(instance)에 따라 달라지며, 특정 작업을 인식하는 난이도에 따라 영향을 받는 경향이 있다. 특징과 독립적인 설정에서의 기존 결과를 적용하기 위해서는 노이즈 비율을 상당히 정밀하게 추정해야 하는데, 이는 실용적으로 어렵다. 따라서 인스턴스에 의존적인 라벨 노이즈를 다루는 문제에 대해 이론적으로 엄밀한 해결책을 제시하는 것은 여전히 도전 과제로 남아 있다. 본 논문에서는 손상된 예시를 점진적으로 걸러내는 CORES$^{2}$ (COnfidence REgularized Sample Sieve)를 제안한다. CORES$^{2}$는 노이즈 비율을 미리 지정할 필요 없이 구현 가능하며, 동시에 손상된 예시를 필터링하는 과정에 대해 이론적인 보장을 제공한다. 이 고품질의 샘플 체질 기법을 통해 DNN 학습 과정에서 깨끗한 예시와 손상된 예시를 별도로 다룰 수 있으며, 이 분리 전략은 인스턴스에 의존적인 노이즈 환경에서 유리함이 입증되었다. 우리는 합성된 인스턴스에 의존적인 라벨 노이즈를 포함한 CIFAR10 및 CIFAR100 데이터셋, 그리고 실제 인간 라벨링 노이즈가 존재하는 Clothing1M 데이터셋을 대상으로 CORES$^{2}$의 성능을 실험적으로 검증하였다. 독립적인 관심사로서, 본 연구에서 제안하는 샘플 체질 기법은 노이즈가 포함된 데이터셋을 분석하는 일반적인 도구를 제공하며, 다양한 강건한 학습 기법이 더 나은 성능을 발휘할 수 있도록 유연한 인터페이스를 제공한다. 코드는 https://github.com/UCSC-REAL/cores 에서 공개되어 있다.