
초록
순환 신경망(RNN)은 순차적 데이터에 대한 강력한 모델입니다. Connectionist Temporal Classification과 같은 엔드투엔드 학습 방법은 입력-출력 정렬이 알려지지 않은 시퀀스 라벨링 문제를 위해 RNN을 훈련시키는 것이 가능하게 만들었습니다. 이러한 방법들을 Long Short-term Memory RNN 아키텍처와 결합한 것은 특히 필기체 문자 인식에서 최고 수준의 결과를 제공하며, 매우 유용한 것으로 입증되었습니다. 그러나 음성 인식 분야에서는 RNN의 성능이 아직 실망스러운 결과를 보이고 있으며, 깊은 피드포워드 네트워크가 더 나은 결과를 제공하고 있습니다. 본 논문에서는 \emph{깊은 순환 신경망}을 연구합니다. 이는 깊은 네트워크에서 효과적이었던 다수준 표현과 RNN이 제공하는 장거리 문맥의 유연한 사용을 결합합니다. 적절한 규제와 함께 엔드투엔드로 훈련할 때, 우리는 깊은 Long Short-term Memory RNN이 TIMIT 음소 인식 벤치마크에서 17.7%의 테스트 세트 오류율을 달성함을 확인했습니다. 이는 우리가 알고 있는 한 최고 기록입니다.