17일 전
음성 인식을 위한 반복적 의사라벨링
Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert

초록
최근 들어, 종단 간 자동 음성 인식(ASR)에서 의사 레이블링(pseudo-labeling) 기법이 주목받고 있다. 본 연구에서는 음성 모델의 진화 과정에서 비라벨 데이터에 대해 반복적으로 의사 레이블링을 수행하는 반복적 의사 레이블링(Iterative Pseudo-Labeling, IPL)이라는 반감독 학습 알고리즘을 탐구한다. 특히 IPL은 각 반복 단계에서 기존 모델을 라벨링된 데이터와 일부 비라벨 데이터를 활용해 미세조정(fine-tuning)한다. 본 연구에서는 IPL의 주요 구성 요소인 언어 모델을 이용한 디코딩과 데이터 증강(data augmentation)을 분석하고, 표준 및 저자원 환경 모두에서 LibriSpeech 테스트 세트에서 최신 기준을 넘는 단어 오류율(word-error rate)을 달성함으로써 IPL의 효과성을 입증한다. 또한, 다양한 텍스트 코퍼스로 학습된 언어 모델의 영향을 조사하여, IPL이 추가 텍스트 데이터를 효과적으로 활용할 수 있음을 보여준다. 마지막으로, LibriSpeech 학습 전사 데이터와 겹치지 않는 새로운 대규모 도메인 내 텍스트 코퍼스를 공개하여 저자원 환경에서의 반감독 ASR 연구를 촉진하고자 한다.