3달 전

NGC: 오픈월드 노이즈 데이터를 활용한 학습을 위한 통합 프레임워크

Zhi-Fan Wu, Tong Wei, Jianwen Jiang, Chaojie Mao, Mingqian Tang, Yu-Feng Li
NGC: 오픈월드 노이즈 데이터를 활용한 학습을 위한 통합 프레임워크
초록

기계 학습 시스템의 학습 및 테스트 단계에서 노이즈가 있는 데이터의 존재는 매우 흔한 현상이며, 이는 모델 성능 저하를 피할 수 없게 만든다. 지난 10년간 많은 연구가 분포 내(IND, in-distribution) 노이즈 레이블을 가진 데이터에서의 학습에 집중해 왔다. 즉, 일부 학습 샘플이 실제 클래스와 일치하지 않는 잘못된 레이블을 부여받는 상황을 다루었다. 그러나 실세계 응용 환경에서는 분포 외(OOD, out-of-distribution) 샘플, 즉 알려진 어떤 클래스에도 속하지 않는 샘플의 영향을 고려하는 것이 필수적이며, 이에 대한 연구는 아직 충분히 이루어지지 않았다. 이러한 문제를 보완하기 위해 우리는 새로운 문제 설정인 '오픈월드 노이즈 데이터를 활용한 학습(Learning with Open-world Noisy Data, LOND)'을 제안한다. LOND의 목표는 분포 내와 분포 외 노이즈가 혼합된 데이터셋으로부터 분류기와 OOD 탐지기(분포 외 샘플 탐지기)를 동시에 학습하는 것이다. 본 논문에서는 데이터의 기하학적 구조와 모델의 예측 신뢰도를 활용하여 깨끗한 샘플을 수집하는 새로운 그래프 기반 프레임워크인 '노이즈 그래프 클리닝(Noisy Graph Cleaning, NGC)'을 제안한다. 추가적인 학습 과정 없이도, NGC는 학습된 클래스 프로토타입을 기반으로 테스트 단계에서 직접 OOD 샘플을 탐지하고 거부할 수 있다. 다양한 유형의 노이즈를 포함한 여러 벤치마크에서 실험을 수행한 결과, 제안한 방법이 기존 최고 수준의 기법들에 비해 우수한 성능을 보임을 입증하였다.