SSR: 알 수 없는 레이블 노이즈 환경에서 학습을 위한 효율적이고 강건한 프레임워크

신경망을 활용한 지도 학습 분야에서 큰 진전이 있었음에도 불구하고, 고품질, 대규모, 정확하게 레이블링된 데이터셋을 확보하는 데는 여전히 큰 도전이 존재한다. 이러한 맥락에서 노이즈가 있는 레이블 상황에서도 효과적으로 학습하는 방법에 대한 관심이 점점 증가하고 있다. 비교적 복잡한 문제인 만큼, 기존의 접근 방식은 좋은 성능을 달성하기 위해 지도 학습, 반지도 학습, 전이 학습 등의 여러 분야의 요소를 통합하는 경우가 많아 복잡한 방법론을 도입하게 된다. 게다가 이러한 방법들은 종종 데이터의 노이즈 유형에 대해 여러 가지 가정을 내포하고 있어, 모델의 강건성에 부정적인 영향을 미치고 다양한 노이즈 조건 하에서의 성능을 제한한다. 본 논문에서는 레이블 노이즈의 정도와 유형이 모두 알려지지 않은 상황을 고려하는 새로운 문제 설정인 ‘알 수 없는 레이블 노이즈 하에서의 학습(Learning with Unknown Label Noise, LULN)’을 제안한다. 이 설정 하에서 기존의 방법들이 종종 다수의 가정을 도입하고 복잡한 해법을 제시하는 것과 달리, 우리는 단순하고 효율적이며 강건한 프레임워크인 샘플 선택 및 재레이블링(Sample Selection and Relabelling, SSR)을 제안한다. 최소한의 하이퍼파라미터를 사용함에도 불구하고, 다양한 조건에서 최신 기술(SOTA) 수준의 성능을 달성한다. 본 방법의 핵심은 비모수적 K-최근접 이웃 분류기(NPK, $g_q$)와 파라미터화된 모델 분류기(PMC, $g_p$)를 각각 활용하여 깨끗한 샘플을 선택하고, 점진적으로 노이즈가 있는 샘플을 재레이블링하는 메커니즘에 있다. 모델 공동 훈련(co-training), 자기지도 사전 훈련(self-supervised pre-training), 반지도 학습과 같은 복잡한 부가 기능 없이도, 하이퍼파라미터 설정에 대해 강건하며, 인공 노이즈가 있는 CIFAR10/CIFAR100과 웹비전(WebVision), 클로딩1M(Clothing1M), ANIMAL-10N과 같은 실제 세계의 노이즈 데이터셋 모두에서 기존 방법들을 크게 능가한다. 코드는 https://github.com/MrChenFeng/SSR_BMVC2022 에서 공개되어 있다.