17일 전

로컬 사전 매칭을 통한 반감독 학습 음성 인식

Wei-Ning Hsu, Ann Lee, Gabriel Synnaeve, Awni Hannun
로컬 사전 매칭을 통한 반감독 학습 음성 인식
초록

음성 인식과 같은 시퀀스 변환 작업에서 강력한 구조적 사전 모델은 타겟 공간에 대한 풍부한 정보를 인코딩하며, 유효하지 않은 시퀀스에 낮은 확률을 부여함으로써 이를 암묵적으로 배제한다. 본 연구에서는 강력한 사전 모델(예: 언어 모델)로부터 지식을 요약하여 레이블이 없는 음성 데이터로 훈련되는 판별 모델에게 학습 신호를 제공하는 반감독 학습 목표인 로컬 사전 매칭(Local Prior Matching, LPM)을 제안한다. 우리는 LPM이 이론적으로 타당하며 구현이 간단하며, 유사한 설정에서 기존 지식 요약 기법보다 우수함을 보여준다. 레이블이 있는 음성 데이터 100시간으로 초기 모델을 학습한 후, 추가로 360시간의 레이블 없는 데이터를 활용할 경우, LPM은 청결한 테스트 세트에서 전체 감독 모델 대비 54%의 단어 오류율을 회복하고, 노이즈가 있는 테스트 세트에서는 73%의 단어 오류율을 회복한다.

로컬 사전 매칭을 통한 반감독 학습 음성 인식 | 최신 연구 논문 | HyperAI초신경