17일 전

글자 기반 특징과 중요도 샘플링을 이용한 신경망 언어 모델링

{Xie Chen, Sanjeev Khudanpur, Ke Li, Jian Wang, Yiming Wang, Daniel Povey, Hainan Xu, Shiyin Kang}
초록

본 논문에서는 자동 음성 인식(ASR) 및 관련 작업에 활용하기 위한 신경망 기반 언어 모델링을 지원하도록 Kaldi 소프트웨어 툴킷을 확장한 내용을 기술한다. 모델이 빈도가 낮은 단어를 포함한 대규모 어휘를 처리할 수 있도록, 서브워드 특징(글자 n-그램)과 빈도 높은 단어의 원-핫 인코딩을 결합한다. 비정규화된 확률을 학습할 수 있도록 허용하는 새로운 목적 함수를 제안한다. 어휘가 큰 경우 학습 속도를 높이기 위해 중요도 샘플링 기반의 방법을 지원한다. 다섯 개의 코퍼스를 대상으로 한 실험 결과, Kaldi-RNNLM은 성능과 학습 속도 면에서 다른 순환 신경망 기반 언어 모델 툴킷과 경쟁할 수 있음을 보여준다.

글자 기반 특징과 중요도 샘플링을 이용한 신경망 언어 모델링 | 최신 연구 논문 | HyperAI초신경