모든 레이블 노이즈 수준에 대해 보편적으로 강건한 분류기 훈련하기

분류 과제에서 깊은 신경망은 레이블 노이즈가 존재할 경우 과적합되기 쉬운 경향이 있다. 기존의 방법들은 낮은 노이즈 수준에서는 이 문제를 완화할 수 있지만, 높은 노이즈 수준에서는 성능이 크게 저하되거나, 비대칭적인 레이블 노이즈가 존재하는 중간 수준의 노이즈에서도 동일한 문제가 발생한다. 모든 노이즈 수준에 대해 일반적으로 강건한 분류기를 학습하고, 노이즈 모델의 어떤 변동에도 민감하지 않도록 하기 위해, 우리는 새로운 유형의 양성-무레이블 학습(Positive-Unlabeled learning)을 포함하는 추출 기반 프레임워크를 제안한다. 구체적으로, 주어진 노이즈 데이터셋의 일부 소규모 하위 집합이 올바른 레이블을 가지고 있음을 가정하며, 이를 '양성(positive)'으로 간주하고, 나머지 노이즈가 포함된 하위 집합은 '미레이블(unlabeled)'로 간주한다. 제안하는 프레임워크는 다음 두 가지 구성 요소로 이루어진다: (1) 반복적인 업데이트를 통해 '미레이블' 샘플들에서 추가적인 신뢰할 수 있는 '양성' 샘플을 필터링하여 보강된 깨끗한 샘플 집합을 생성한다; (2) 이러한 확장된 깨끗한 집합 위에서 교사 모델(teacher model)을 학습한다. 이후 교사 모델의 안내를 받으며, 전체 데이터셋 위에서 학생 모델(student model)을 학습한다. 우리는 대칭적 및 비대칭적 노이즈를 가진 다양한 노이즈 수준에서 CIFAR-10 데이터셋에 합성 노이즈를 적용하여 실험을 수행하였다. 결과적으로, 본 프레임워크는 중간에서 높은 노이즈 수준에서 일반적으로 기존 방법보다 우수한 성능을 보였다. 또한, 실제 데이터셋인 Clothing1M에 대해 본 프레임워크를 평가하였으며, 기존 최고 성능 기법 대비 정확도에서 2.94%의 개선을 달성하였다.