3달 전

노이즈 있는 레이블을 활용한 선택적-감독형 대조 학습

Shikun Li, Xiaobo Xia, Shiming Ge, Tongliang Liu
노이즈 있는 레이블을 활용한 선택적-감독형 대조 학습
초록

딥 네트워크는 데이터를 잠재 표현으로 임베딩하고 이후 작업을 수행하는 데 강력한 능력을 갖추고 있다. 그러나 이러한 능력은 대부분 고품질의 레이블링된 데이터에 의존하며, 이러한 레이블을 수집하는 데 비용이 매우 크다. 반면, 노이즈가 포함된 레이블은 더 저렴하지만, 이는 표현의 왜곡을 초래하여 일반화 성능을 저하시킨다. 노이즈 레이블을 다룰 수 있는 강건한 표현을 학습하기 위해 본 논문에서는 선택적 감독 대조 학습(Selective-Supervised Contrastive Learning, Sel-CL)을 제안한다. 구체적으로, Sel-CL는 표현 학습에서 강력한 성능을 발휘하지만 노이즈 레이블이 존재할 경우 성능이 저하되는 감독 대조 학습(Supervised Contrastive Learning, Sup-CL)을 확장한 방법이다. Sel-CL는 Sup-CL의 문제 발생 원인을 직접적으로 해결한다. 즉, Sup-CL가 쌍(pair-wise) 기반으로 작동하기 때문에, 노이즈 레이블에 의해 생성된 잘못된 쌍이 표현 학습을 오도하게 된다. 이 문제를 완화하기 위해, 노이즈율을 알지 못하더라도 노이즈 있는 쌍들 중에서 신뢰할 수 있는 쌍을 선별하여 Sup-CL에 활용한다. 선별 과정에서, 학습된 표현과 주어진 레이블 간의 일치도를 측정함으로써 신뢰도가 높은 예시를 먼저 식별하고, 이를 바탕으로 신뢰할 수 있는 쌍을 구성한다. 이후, 구성된 신뢰 쌍 내에서 표현 유사도 분포를 분석하여 추가적인 신뢰 쌍을 노이즈 쌍들 중에서 식별한다. 최종적으로, 모든 확보된 신뢰 쌍을 Sup-CL에 활용하여 표현을 강화한다. 다양한 노이즈가 포함된 데이터셋에서 수행된 실험을 통해 제안한 방법이 학습된 표현의 강건성을 입증하였으며, 최신 기술 수준의 성능을 달성하였다. 소스 코드는 https://github.com/ShikunLi/Sel-CL 에서 제공된다.