2달 전
SemiReward: 반監督 학습을 위한 일반적인 보상 모델
Li, Siyuan ; Jin, Weiyang ; Wang, Zedong ; Wu, Fang ; Liu, Zicheng ; Tan, Cheng ; Li, Stan Z.

초록
준지도 학습(SSL)은 의사 라벨링을 사용한 자기 훈련 프레임워크의 다양한 개선으로 큰 진전을 이룩하였습니다. 주요 과제는 확인 편향에 대한 고품질의 의사 라벨을 구별하는 방법입니다. 그러나 기존의 의사 라벨 선택 전략들은 사전 정의된 방식이나 분류를 위해 특별히 설계된 복잡한 수작업 정책에 제한되어 있어, 고품질 라벨, 빠른 수렴 속도, 그리고 작업 유연성을 동시에 달성하지 못하고 있습니다. 이를 해결하기 위해, 우리는 다양한 작업 유형과 시나리오에서 주요 SSL 방법에 적용 가능한 고품질의 의사 라벨을 평가하고 필터링하기 위한 보상 점수를 예측하는 준지도 보상 프레임워크(SemiReward)를 제안합니다. 확인 편향을 완화하기 위해, SemiReward는 생성 모델과 부분 샘플링 전략을 사용하여 온라인으로 두 단계에서 훈련됩니다. 세 가지 모달리티를 걸친 13개 표준 SSL 벤치마크에서 분류와 회귀 작업을 수행한 광범위한 실험 결과, SemiReward가 Pseudo Label, FlexMatch, Free/SoftMatch보다 상당한 성능 향상과 더 빠른 수렴 속도를 달성함이 입증되었습니다. 코드와 모델은 https://github.com/Westlake-AI/SemiReward에서 이용할 수 있습니다.