17일 전

노이즈 있는 레이블을 이용한 트윈 대조 학습

Zhizhong Huang, Junping Zhang, Hongming Shan
노이즈 있는 레이블을 이용한 트윈 대조 학습
초록

노이즈가 많은 데이터로부터 학습하는 것은 모델 성능을 크게 저하시키는 도전적인 과제이다. 본 논문에서는 분류 작업을 위해 강건한 표현을 학습하고 노이즈가 있는 레이블을 다룰 수 있는 새로운 이중 대조 학습 모델인 TCL을 제안한다. 구체적으로, 지도 학습 모델의 예측값을 GMM(Gaussian Mixture Model)에 주입하여 GMM 내의 레이블 없는 잠재 변수를 노이즈가 있는 레이블 정보와 연결한다. 이후 TCL은 데이터 분포를 고려하여 두 개의 구성 요소로 이루어진 또 다른 GMM을 활용하여 잘못된 레이블을 가진 예시를 이상치(Out-of-Distribution) 예시로 탐지한다. 더 나아가, 모델 예측값에서 진정한 타깃을 부트스트래핑하기 위해 엔트로피 정규화 손실을 활용한 교차 감독(cross-supervision)을 제안한다. 그 결과, TCL은 Mixup 및 대조 학습을 통해 추정된 레이블과 일치하는 구분 가능한 표현을 학습할 수 있다. 다양한 표준 벤치마크 및 실세계 데이터셋에서 수행된 광범위한 실험 결과는 TCL의 우수한 성능을 입증한다. 특히, 90%의 노이즈 레이블이 존재하는 극도로 노이즈가 많은 CIFAR-10 데이터셋에서 TCL은 7.5%의 성능 향상을 달성하였다. 소스 코드는 \url{https://github.com/Hzzone/TCL}에서 제공된다.

노이즈 있는 레이블을 이용한 트윈 대조 학습 | 최신 연구 논문 | HyperAI초신경