17일 전

라티스 자유형 MMI 기반의 순수 시퀀스 훈련 신경망을 이용한 음성 인식

{Sanjeev Khudanpur, Xingyu Na, Yiming Wang, Daniel Povey, Vimal Manohar, Vijayaditya Peddinti, Pegah Ghahrmani, Daniel Galvez}
라티스 자유형 MMI 기반의 순수 시퀀스 훈련 신경망을 이용한 음성 인식
초록

이 논문에서는 프레임 단위 교차 엔트로피 사전 학습 없이도 신경망 음성 모델의 시퀀스 구별적 학습을 수행할 수 있는 방법을 제시한다. 우리는 최대 상호정보량(MMI) 기준의 레이티스-프리 버전인 LF-MMI를 사용한다. 이를 계산 가능하게 하기 위해 단어 언어 모델 대신 전화 n-그램 언어 모델을 활용한다. 또한 공간 및 시간 복잡도를 추가로 줄이기 위해 신경망 출력을 기존 프레임 속도의 1/3에서만 계산하여 목적 함수를 구한다. 이러한 개선을 통해 전방-후방 알고리즘(forward-backward algorithm)의 계산을 GPU에서 수행할 수 있게 되었으며, 출력 프레임 속도가 감소함으로써 디코딩 과정에서도 상당한 속도 향상이 가능해졌다.본 연구에서는 100시간에서 2100시간에 이르는 다양한 훈련 데이터를 가진 5개의 LVCSR(task)에 대해 실험 결과를 제시한다. LF-MMI로 학습한 모델은 교차 엔트로피 목적 함수로 학습한 모델 대비 약 11.5%의 상대 단어 오류율 감소를 보였으며, 교차 엔트로피 및 sMBR 목적 함수로 학습한 모델 대비 약 8%의 감소를 기록하였다. 또한, 단어 레이티스 기반의 sMBR 목적 함수를 사용한 미세 조정(fine-tuning)을 통해 추가로 약 2.5%의 상대적인 오류율 감소를 얻을 수 있다.

라티스 자유형 MMI 기반의 순수 시퀀스 훈련 신경망을 이용한 음성 인식 | 최신 연구 논문 | HyperAI초신경