17일 전

라티스 자유형 MMI를 이용한 엔드투엔드 음성 인식

{Sanjeev Khudanpur, Daniel Povey, Hossein Sameti, Hossein Hadian}
라티스 자유형 MMI를 이용한 엔드투엔드 음성 인식
초록

우리는 은닉 마르코프 모델(HMM)의 맥락에서 사전형 최대 상호정보량(LF-MMI) 목적 함수를 사용하여 음성 모델의 엔드투엔드 학습에 관한 연구를 제시한다. 여기서 '엔드투엔드 학습'이란 기존에 학습된 모델이나 강제 정렬(forced alignment), 상태 연결 결정 트리(state-tying decision tree)를 사용하지 않고, 단일 DNN을 단일 단계에서 평탄한 시작(flat-start) 방식으로 학습하는 것을 의미한다. 우리는 트리 없이도 문맥 의존적 모델링을 가능하게 하기 위해 전체 이음소(biphones)를 사용하였으며, 제안하는 엔드투엔드 LF-MMI 접근법이 잘 알려진 대규모 어휘 과제에서 전통적인 LF-MMI와 비교해 유사한 성능을 달성함을 보였다. 또한, 문자 기반 및 사전 없는 환경에서 CTC와 같은 다른 엔드투엔드 방법과 비교하여, 다양한 대규모 어휘 과제에서 단어 오류율(word error rate)을 5~25% 상대적으로 감소시키면서도 훨씬 더 작은 모델 크기를 사용할 수 있음을 확인하였다.

라티스 자유형 MMI를 이용한 엔드투엔드 음성 인식 | 최신 연구 논문 | HyperAI초신경