17일 전

엔드투엔드 ASR: 최신 아키텍처를 활용한 지도 학습에서 반지도 학습으로

Gabriel Synnaeve, Qiantong Xu, Jacob Kahn, Tatiana Likhomanenko, Edouard Grave, Vineel Pratap, Anuroop Sriram, Vitaliy Liptchinsky, Ronan Collobert
엔드투엔드 ASR: 최신 아키텍처를 활용한 지도 학습에서 반지도 학습으로
초록

우리는 음성 인식을 위한 ResNet, Time-Depth 분리형 ConvNet, 그리고 Transformer 모델의 반감독 학습을 위해 의사 레이블링(pseudo-labeling) 기법을 연구한다. 이 연구에서는 CTC 또는 Seq2Seq 손실 함수를 사용한다. 표준적인 LibriSpeech 데이터셋에서 실험을 수행하며, LibriVox에서 확보한 추가적인 비라벨링 음성 데이터를 의사 레이블링을 통해 활용한다. 실험 결과, 감독 학습만으로도 Transformer 기반 음성 모델이 우수한 성능을 보이지만, 반감독 학습은 모든 아키텍처 및 손실 함수에 걸쳐 모델 성능을 향상시키며, 각 모델 간의 성능 차이를 상당 부분 해소함을 보여준다. 이를 통해 표준 감독 학습 환경에서 외부 언어 모델을 사용하여 디코딩하는 엔드투엔드 음성 모델의 새로운 최고 성능 기록을 달성하였으며, 반감독 학습 환경에서는 절대적인 최고 성능을 기록하였다. 마지막으로, 다양한 양의 비라벨링 음성 데이터를 활용하는 효과를 분석하고, 비라벨링 음성 데이터의 특성을 평가하기 위한 여러 방법을 제안하며, 더 많은 음성 데이터를 활용해 학습된 음성 모델이 외부 언어 모델에 의존하는 정도가 줄어든다는 점을 실험적으로 입증하였다.