노이즈 있는 레이블 학습을 위한 클래스 균형 전략을 적용한 크로스-머지 훈련
대규모 데이터셋을 수집하는 과정은 필연적으로 노이즈 레이블을 유발하며, 이는 딥 신경망(DNN)의 성능을 심각하게 저하시키는 원인이 된다. 비록 샘플 선택 기법이 노이즈 레이블 학습 분야에서 주류 방법으로 자리 잡고 있으며, 모델 학습 과정에서 노이즈 레이블의 영향을 완화하는 것을 목표로 하지만, 이러한 기법들의 테스트 성능은 다양한 노이즈 비율과 유형에 따라 큰 변동성을 보인다. 본 논문에서는 샘플 선택 과정에서 사전 정보에 대해 민감하지 않은 새로운 프레임워크인 Cross-to-Merge Training(C2MT)을 제안한다. 이는 모델의 강건성(로버스트성)을 향상시키는 데 기여한다. 실질적인 구현에서는 교차 분할된 학습 데이터를 이용하여, 두 개의 서로 다른 네트워크가 여러 개의 로컬 라운드 동안 공동 학습(co-teaching) 전략을 통해 상호 교차 학습을 수행한 후, 주기적으로 두 모델의 파라미터에 대해 연합 평균(federated averaging)을 수행하여 하나의 통합 모델로 병합한다. 또한, 교차 분할 과정 중에 새로운 클래스 균형 전략인 중앙값 균형 전략(Median Balance Strategy, MBS)을 도입한다. 이 전략은 추정된 손실 분포 특성을 기반으로 학습 데이터를 레이블이 부여된 부분집합과 레이블이 없는 부분집합으로 균등하게 분할한다. 합성 및 실세계 데이터셋을 대상으로 한 광범위한 실험 결과는 C2MT의 효과성을 입증한다. 코드는 다음 링크에서 공개될 예정이다: https://github.com/LanXiaoPang613/C2MT.