17일 전

노이즈 있는 레이블 학습을 위한 FINE 샘플들

Taehyeon Kim, Jongwoo Ko, Sangwook Cho, Jinhwan Choi, Se-Young Yun
노이즈 있는 레이블 학습을 위한 FINE 샘플들
초록

현대의 심층 신경망(DNN)은 데이터셋에 노이즈가 있는(잘못된) 클래스 레이블이 포함되어 있을 경우 취약해진다. 노이즈 레이블이 존재하는 환경에서도 강건한 기법은 크게 두 가지로 나눌 수 있다: 노이즈에 강건한 함수를 개발하거나, 노이즈 데이터를 탐지함으로써 노이즈를 제거하는 정제 기법을 사용하는 것이다. 최근 들어 노이즈 정제 기법이 가장 경쟁력 있는 노이즈 레이블 학습 알고리즘으로 여겨지고 있다. 이러한 기법들은 성공을 거두었지만, 대부분의 노이즈 레이블 탐지기는 이론보다는 경험적 힌트(heuristics)에 기반하여 설계되며, 일반적으로 손실 값이 높은 데이터를 노이즈 데이터로 예측하기 위해 강건한 분류기가 필요하다. 본 논문에서는 레이블 노이즈를 필터링하기 위한 새로운 탐지기(detector)를 제안한다. 기존의 대부분의 방법들과 달리, 우리는 각 데이터의 잠재 표현 동역학(latent representation dynamics)에 주목하고, 데이터 그램 행렬(data gram matrix)의 고유분해(eigendecomposition)를 활용하여 잠재 분포와 각 표현 간의 정렬도(alignment)를 측정한다. 본 연구에서 제안하는 프레임워크인 ‘고유벡터를 통한 노이즈 인스턴스 필터링(FINE: Filtering Noisy Instances via their Eigenvectors)’은 도함수를 필요로 하지 않는 간단한 방법을 기반으로 하면서도 이론적 보장이 있는 강건한 탐지기를 제공한다. 본 프레임워크 하에서 FINE의 세 가지 응용 방안을 제안한다: 샘플 선택 기반 접근법, 반감독 학습 접근법, 그리고 노이즈에 강건한 손실 함수와의 협업 방식. 실험 결과, 다양한 벤치마크 데이터셋에서 제안된 세 가지 응용 모두에 대해 기존의 대안 대비 일관되게 더 우수한 성능을 보였다.