2달 전
구간 재귀 신경망을 이용한 엔드투엔드 음성 인식
Liang Lu; Lingpeng Kong; Chris Dyer; Noah A. Smith; Steve Renals

초록
우리는 엔드투엔드 음성 모델링을 위한 세그먼털 재귀 신경망(Segmental Recurrent Neural Network, SRNN)을 연구합니다. 이 모델은 특징 추출에 사용되는 재귀 신경망(Recurrent Neural Network, RNN)과 세그먼털 조건부 랜덤 필드(Segmental Conditional Random Field, CRF)를 연결합니다. 대부분의 이전 CRF 기반 음성 모델과 달리, 이 모델은 외부 시스템으로부터 특징이나 분할 경계를 제공받지 않습니다. 대신, 이 모델은 모든 가능한 분할을 마르코프 적분(Marginalisation)하여 제거하고, RNN이 세그먼털 CRF와 함께 훈련되어 얻어진 데이터에서 특징을 추출합니다. 본질적으로, 이 모델은 자체적으로 완전히 포함되어 있으며 엔드투엔드로 훈련될 수 있습니다. 본 논문에서는 음성 인식의 맥락에서 실용적인 훈련 및 디코딩 문제와 훈련 속도를 높이는 방법에 대해 논의합니다. 우리는 TIMIT 데이터셋에서 실험을 수행했습니다. 첫 번째 패스 디코딩에서 17.3%의 폰 오류율(Phone Error Rate, PER)을 달성하였으며, 이는 언어 모델을 사용하지 않고 0차 CRF만 사용한 결과임에도 불구하고 보고된 최상의 결과입니다.