16일 전
다시: 동적 임계값을 활용한 반감독 학습
Yi Xu, Lei Shang, Jinxing Ye, Qi Qian, Yu-Feng Li, Baigui Sun, Hao Li, Rong Jin

초록
반감독 학습(Semi-Supervised Learning, SSL)은 레이블이 없는 데이터의 효과적인 활용으로 인해 다양한 머신러닝 작업에서 큰 주목을 받고 있다. 그러나 기존의 SSL 알고리즘은 훈련 과정 중에 레이블이 없는 모든 예제를 사용하거나, 일정한 높은 신뢰도를 가진 예측을 가진 레이블이 없는 예제만을 사용하는 방식을 채택하고 있다. 그러나 이러한 접근 방식은 과도하게 정확하거나 오류가 있는 의사 레이블 예제가 제거되거나 선택되는 상황이 발생할 수 있다. 본 연구에서는 기존 SSL 방법을 수행할 때 레이블이 없는 데이터로부터 훈련 예제의 부분집합을 선택하는 간단하면서도 강력한 프레임워크를 제안한다. 이 프레임워크의 핵심 아이디어는 레이블이 있는 데이터와 관련된 의사 레이블을 가진 레이블이 없는 예제들만 모델 훈련에 사용되도록 하는 것이다. 이러한 선택은 각 최적화 반복 단계에서 수행되며, 손실 값이 주어진 임계값보다 작은 예제들만 유지하는 방식으로 이루어진다. 이 임계값은 반복 과정을 통해 동적으로 조정된다. 제안하는 방법인 Dash는 레이블이 없는 데이터 선택 측면에서 적응성과 이론적 보장을 갖추고 있다. 구체적으로, 비볼록 최적화 관점에서 Dash의 수렴 속도에 대한 이론적 분석을 수행하였다. 마지막으로, 다양한 벤치마크에서 최신 기술 대비 제안된 방법의 효과성을 실험적으로 입증하였다.