2달 전

개선된 음성 인식을 위한 엔드투엔드 주의 모델의 훈련

Albert Zeyer; Kazuki Irie; Ralf Schlüter; Hermann Ney
개선된 음성 인식을 위한 엔드투엔드 주의 모델의 훈련
초록

서브워드 단위를 기반으로 하는 시퀀스-투-시퀀스 어텐션 모델은 간단한 오픈 보카블러리 엔드-투-엔드 음성 인식을 가능하게 합니다. 본 연구에서는 이러한 모델이 Switchboard 300시간 및 LibriSpeech 1000시간 작업에서 경쟁력 있는 결과를 달성할 수 있음을 보여줍니다. 특히, LibriSpeech의 dev-clean 평가 세트에서 3.54%, test-clean 평가 세트에서 3.82%의 최신 단어 오류율(WER)을 보고합니다. 우리는 훈련 과정에서 시간 축소 인자를 높게 시작하여 점차 낮추는 새로운 사전 훈련 방식을 소개하는데, 이는 수렴과 최종 성능 모두에 결정적입니다. 일부 실험에서는 수렴을 돕기 위해 보조 CTC 손실 함수도 사용했습니다. 또한, 서브워드 단위로 LSTM 언어 모델을 훈련시켰습니다. 얕은 융합을 통해 언어 모델 없이 어텐션 베이스라인 대비 WER에서 최대 27%의 상대적인 개선을 보고합니다.