PropMix: 노이즈 있는 레이블 학습을 위한 하드 샘플 필터링 및 비율 믹스업

가장 경쟁력 있는 노이즈 레이블 학습 방법들은 깨끗한 샘플과 노이즈가 있는 샘플을 비지도 방식으로 분류하는 데 의존하며, 이 중 노이즈로 분류된 샘플은 재레이블링되고 깨끗한 샘플과 '믹스매치(MixMatch)' 처리된다. 이러한 방법들은 높은 노이즈 비율 문제에서 두 가지 문제를 겪는다. 첫째, 노이즈 샘플 집합에는 재레이블링 과정에서 오류가 발생하기 쉬운 어려운 샘플이 포함될 가능성이 높다. 둘째, 믹스매치(MixMatch)를 통해 생성되는 샘플 수가 깨끗한 샘플 집합의 크기가 작아 제한되면서 감소하게 된다. 본 논문에서는 이러한 문제를 해결하기 위해 PropMix라는 새로운 학습 알고리즘을 제안한다. PropMix는 어려운 노이즈 샘플을 필터링함으로써, 쉬운 노이즈 샘플에 대해 재레이블링이 정확히 이루어질 가능성을 높이는 것을 목표로 한다. 또한 PropMix는 깨끗한 샘플과 재레이블링된 쉬운 노이즈 샘플을 믹스업(MixUp)으로 증강된 학습 세트에 포함시켜, 깨끗한 샘플 집합 크기의 제약을 제거하고 정확히 재레이블링된 쉬운 노이즈 샘플의 비중을 크게 확보한다. 더불어, 고노이즈 레이블 환경에 대한 강건성을 향상시키기 위해 자체지도 사전 학습(self-supervised pre-training)을 도입하였다. 실험 결과, PropMix는 CIFAR-10/-100(대칭적, 비대칭적, 의미적 레이블 노이즈 모두 포함), Red Mini-ImageNet(제어된 웹 레이블에서 유도), Clothing1M, WebVision에서 최고 성능(SOTA)을 기록하였다. 특히 심각한 레이블 노이즈 벤치마크에서는 기존 방법들과 비교해 훨씬 우수한 성능을 보였다. 코드는 https://github.com/filipe-research/PropMix 에서 공개되어 있다.