3달 전

노이즈 있는 레이블 학습을 위한 증강 전략

Kento Nishi, Yi Ding, Alex Rich, Tobias Höllerer
노이즈 있는 레이블 학습을 위한 증강 전략
초록

실제 데이터셋에서는 완벽하지 않은 레이블이 흔히 존재한다. 최근 깊은 신경망(DNN)의 레이블 노이즈에 대한 내성을 높이기 위한 성공적인 여러 방법들은 주로 두 가지 기술을 사용해 왔다. 하나는 웜업 단계 동안 손실 기반 샘플 필터링을 통해 초기에 깨끗한 레이블이 부여된 샘플 집합을 구성하는 것이고, 다른 하나는 네트워크의 출력을 후속 손실 계산을 위한 의사 레이블(pseudo-label)로 활용하는 것이다. 본 논문에서는 '노이즈 있는 레이블로 학습하기' 문제를 해결하는 알고리즘에 대한 다양한 증강 전략을 평가한다. 우리는 여러 가지 증강 전략을 제안하고, CIFAR-10과 CIFAR-100 기반의 합성 데이터셋뿐 아니라 실제 세계 데이터셋인 Clothing1M에서도 이를 평가한다. 이러한 알고리즘들 사이의 여러 공통점을 고려하여, 손실 모델링 작업에는 하나의 증강 세트를, 학습 과정에는 다른 증강 세트를 사용하는 것이 가장 효과적임을 발견하였다. 이는 최신 기법과 이전의 다양한 방법들에 대해 성능을 향상시켰다. 또한, 웜업 기간 동안 증강을 적용할 경우, 올바르게 레이블링된 샘플과 잘못 레이블링된 샘플 간의 손실 수렴 특성이 부정적으로 영향을 받을 수 있음을 확인하였다. 본 연구에서는 이러한 증강 전략을 최신 기법에 도입하여, 평가된 모든 노이즈 수준에서 성능 향상을 입증하였다. 특히, 대칭 노이즈 비율이 90%인 CIFAR-10 벤치마크에서 절대 정확도 기준으로 15% 이상 향상되었으며, Clothing1M 데이터셋에서도 성능 향상이 확인되었다.(K. Nishi와 Y. Ding은 본 연구에 동등하게 기여함)