8일 전

노이즈 레이블을 가진 학습에서 노이즈 탐지를 위한 확장 가능한 페널티 회귀

Yikai Wang, Xinwei Sun, Yanwei Fu
노이즈 레이블을 가진 학습에서 노이즈 탐지를 위한 확장 가능한 페널티 회귀
초록

노이즈가 포함된 학습 데이터셋은 일반적으로 신경망의 일반화 성능과 견고성의 저하를 초래한다. 본 논문에서는 노이즈 있는 레이블을 가진 학습(Learning with Noisy Labels, LNL)에 대해 이론적으로 보장된 노이즈 레이블 탐지 프레임워크를 활용하여 노이즈 데이터를 탐지하고 제거하는 방법을 제안한다. 구체적으로, 네트워크 특징과 one-hot 레이블 간의 선형 관계를 모델링하기 위해 페널티 회귀(penalized regression)를 설계하였으며, 회귀 모델에서 해결되는 비영 평균 이동 파라미터를 통해 노이즈 데이터를 식별한다. 대규모 카테고리와 방대한 학습 데이터를 포함하는 데이터셋에 대한 확장성을 확보하기 위해, 전체 학습 데이터셋을 소규모 조각으로 나누어 병렬적으로 페널티 회귀를 적용할 수 있도록 하는 분할 알고리즘을 제안함으로써, 확장 가능한 페널티 회귀(Scalable Penalized Regression, SPR) 프레임워크를 구축하였다. 또한 SPR이 노이즈 데이터를 정확히 식별할 수 있는 비점근적(probabilistic) 조건을 제시한다. SPR은 표준 감독 학습 파이프라인의 샘플 선택 모듈로 활용될 수 있으나, 본 연구에서는 이를 반감독 학습 알고리즘과 결합함으로써 노이즈 데이터가 비라벨링 데이터로서 제공하는 정보를 더욱 효과적으로 활용한다. 다양한 벤치마크 데이터셋과 실제 세계의 노이즈 데이터셋에서 수행한 실험 결과는 제안하는 프레임워크의 효과성을 입증한다. 본 연구의 코드 및 사전 학습된 모델은 https://github.com/Yikai-Wang/SPR-LNL 에 공개되어 있다.