3달 전
Librispeech Transducer 모델의 내부 언어 모델 사전 보정
Albert Zeyer, André Merboldt, Wilfried Michel, Ralf Schlüter, Hermann Ney

초록
우리는 Librispeech 데이터셋을 대상으로 한 트랜스듀서 모델을 제시한다. 본 연구에서는 외부 언어 모델(LM)을 얕은 융합(shallow fusion) 방식으로 포함하는 다양한 변형을 탐색하며, 추정된 내부 언어 모델(internal LM)을 제거하는 방식을 제안한다. 이는 베이지안 해석에 기반한 것으로, 트랜스듀서 모델의 사전 확률이 추정된 내부 언어 모델에 의해 결정됨을 시사한다. 내부 언어 모델을 제거함으로써 일반적인 얕은 융합 대비 14% 이상의 상대적 성능 향상을 달성할 수 있었다. 본 트랜스듀서 모델은 빈 레이블(blank)이 아닌 레이블에 대해 별도의 확률 분포를 가지며, 이는 외부 언어 모델과의 보다 간편한 결합 및 내부 언어 모델의 보다 정확한 추정을 가능하게 한다. 또한, 마지막 빈 레이블에 대한 확률에 외부 언어 모델의 문장 종료(EOS) 확률을 적절히 포함시켜 성능을 추가로 향상시켰다. 본 연구에서 사용한 모든 코드 및 설정은 공개되어 있다.