2달 전

깊은 순환 신경망을 이용한 음향 모델링

William Chan; Ian Lane
깊은 순환 신경망을 이용한 음향 모델링
초록

우리는 자동 음성 인식(Automatic Speech Recognition, ASR)에서 음향 모델링을 위한 새로운 깊은 순환 신경망(Recurrent Neural Network, RNN) 모델을 제시합니다. 이 기여를 TC-DNN-BLSTM-DNN 모델이라고 명명하였습니다. 이 모델은 깊은 신경망(Deep Neural Network, DNN)과 시간 합성(Time Convolution, TC)을 결합한 후, 양방향 장단기 기억(Bidirectional Long Short-Term Memory, BLSTM)을 거치고 마지막으로 DNN을 사용합니다. 첫 번째 DNN은 우리의 모델에 대한 특징 처리기 역할을 하며, BLSTM은 시퀀스 음향 신호에서 문맥을 생성하고, 마지막 DNN은 이 문맥을 받아 음향 상태의 사후 확률을 모델링합니다. 우리는 월스트리트저널(Wall Street Journal, WSJ) eval92 작업에서 3.47%의 단어 오류율(Word Error Rate, WER)을 달성하였으며, 기준 DNN 모델 대비 상대적으로 8% 이상의 개선 효과를 보였습니다.

깊은 순환 신경망을 이용한 음향 모델링 | 최신 연구 논문 | HyperAI초신경