8일 전

노크오프스-스프: 노이즈 있는 레이블을 활용한 학습에서의 클린 샘플 선택

Yikai Wang, Yanwei Fu, Xinwei Sun
노크오프스-스프: 노이즈 있는 레이블을 활용한 학습에서의 클린 샘플 선택
초록

노이즈가 포함된 학습 데이터셋은 일반적으로 신경망의 일반화 성능과 로버스트성을 저하시키는 원인이 된다. 본 논문에서는 노이즈가 포함된 레이블을 가진 학습에 대해 이론적으로 보장된 청정 샘플 선택 프레임워크를 제안한다. 구체적으로, 네트워크 특징과 one-hot 레이블 간의 선형 관계를 모델링하기 위해 확장 가능한 페널티 회귀(Scalable Penalized Regression, SPR) 방법을 제안한다. SPR에서는 회귀 모델에서 해를 구한 평균 이동 파라미터가 0인 데이터가 청정 데이터로 식별된다. 이론적으로 SPR이 일정 조건 하에서 청정 데이터를 회복할 수 있음을 보여준다. 그러나 일반적인 상황에서는 이러한 조건이 더 이상 만족되지 않을 수 있으며, 일부 노이즈 데이터가 오류적으로 청정 데이터로 선택될 수 있다. 이러한 문제를 해결하기 위해, 선택된 청정 데이터에서 오류 선택 비율(False-Selection-Rate, FSR)을 이론적으로 제어할 수 있는 데이터 적응형 확장 가능한 페널티 회귀 기반 노크오프 필터(Knockoffs-SPR) 방법을 제안한다. 효율성을 향상시키기 위해, 전체 학습 데이터셋을 작은 조각들로 분할하여 병렬 처리가 가능하게 하는 분할 알고리즘을 추가로 제안함으로써 대규모 데이터셋에 대한 확장성을 확보하였다. Knockoffs-SPR는 표준 지도 학습 파이프라인의 샘플 선택 모듈로 활용될 수 있으며, 본 연구에서는 이를 반지도 학습 알고리즘과 결합하여 노이즈 데이터를 미라벨링된 데이터로 활용할 수 있도록 하였다. 다양한 벤치마크 데이터셋과 실제 세계의 노이즈가 포함된 데이터셋에서 수행한 실험 결과는 본 프레임워크의 효과성과 Knockoffs-SPR의 이론적 성과를 입증한다. 본 연구의 코드 및 사전 학습된 모델은 https://github.com/Yikai-Wang/Knockoffs-SPR 에서 공개되어 있다.