샘플 사전 지도 기반 강건한 모델 학습을 통한 노이즈 레이블 억제

실세계 데이터셋에서 불완전한 레이블은 흔히 존재하며, 모델 성능에 심각한 악영향을 미친다. 최근 몇 가지 효과적인 노이즈 레이블 처리 방법은 두 가지 핵심 단계를 포함한다. 첫째, 학습 손실을 기반으로 샘플을 올바르게 레이블링된 집합과 잘못 레이블링된 집합으로 분할하는 것과, 둘째, 반감독 학습 방식을 활용해 잘못 레이블링된 집합에 속한 샘플에 대해 가상 레이블(pseudo-label)을 생성하는 것이다. 그러나 기존의 방법들은 어려운 정상 샘플들과 노이즈 샘플 간의 유사한 손실 분포로 인해 정보가 풍부한 어려운 정상 샘플들을 손상시키는 경향이 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 샘플의 사전 지식(prior knowledge)을 생성함으로써 노이즈를 억제하는 새로운 프레임워크인 PGDF(Prior Guided Denoising Framework)를 제안한다. 이 프레임워크는 샘플 분할 단계와 반감독 학습 단계 양쪽에 통합되어 적용되며, 더 많은 정보가 풍부한 어려운 정상 샘플을 올바르게 레이블링된 집합에 보존할 수 있도록 한다. 또한 반감독 학습 단계에서 현재의 가상 레이블 생성 방식 내부의 노이즈를 억제함으로써, 가상 레이블의 품질을 향상시킨다. 더 나아가, 학습 과정에서 올바르게 레이블링된 집합 내 샘플에 대해 재가중(weighting)을 적용함으로써 어려운 샘플의 성능을 더욱 강화한다. 제안한 방법은 CIFAR-10과 CIFAR-100 기반의 합성 데이터셋을 비롯해 실제 세계 데이터셋인 WebVision과 Clothing1M에서 평가되었으며, 기존 최고 성능 기법들에 비해 상당한 성능 향상을 보였다.