중심성과 일관성: 인스턴스 종속 노이즈 레이블 학습을 위한 이단계 클린 샘플 식별

노이즈가 있는 레이블로 훈련된 딥 모델은 과적합에 취약하고 일반화 성능이 저하되는 경향이 있다. 기존의 대부분의 해결 방법은 레이블 노이즈가 클래스 조건부(class-conditional)라는 이상적인 가정에 기반하고 있다. 즉, 동일한 클래스에 속한 인스턴스들은 동일한 노이즈 모델을 공유하며, 특징(feature)과는 독립적이라는 가정이다. 그러나 현실 세계의 노이즈 패턴은 일반적으로 인스턴스에 따라 달라지는 더 세밀한 형태를 띠며, 특히 클래스 간 불균형이 존재할 경우 큰 도전 과제가 된다. 본 논문에서는 위의 문제를 해결하기 위해 이중 단계(clean samples identification)의 정제된 샘플 식별 방법을 제안한다. 먼저, 각 클래스의 예측 중심(prediction center)에 가까운 샘플들을 조기 식별하기 위해 클래스 수준의 특징 클러스터링 절차를 활용한다. 특히, 드문 클래스(rare classes)를 예측 엔트로피(prediction entropy) 기반으로 통합함으로써 클래스 불균형 문제를 해결한다. 두 번째 단계에서는 진정한 클래스 경계에 가까운 잔여 정제 샘플들(일반적으로 인스턴스 종속적 노이즈를 포함한 혼합 샘플들)에 대해, 두 개의 분류기 헤드(classifier heads) 간의 일관성(consistency)을 이용해 정제 샘플을 식별하는 새로운 일관성 기반 분류 방법을 제안한다. 일관성이 높을수록 샘플이 정제된 샘플일 확률이 높다는 원리를 활용한다. 다양한 도전적인 벤치마크에서 실시한 광범위한 실험을 통해 제안한 방법이 최신 기술 대비 뛰어난 성능을 보임을 입증하였다.