2달 전
2016년 마이크로소프트 대화형 음성 인식 시스템
W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig

초록
마이크로소프트의 대화형 음성 인식 시스템에 대해 설명합니다. 이 시스템은 신경망 기반 음향 모델과 언어 모델의 최근 발전을 결합하여 스위치보드 인식 작업에서 최신 기술 수준을 한 단계 더 끌어올렸습니다. 머신 러닝 앙상블 기법에서 영감을 받은 이 시스템은 다양한 컨볼루션 및 순환 신경망을 사용합니다. i-벡터 모델링과 격자 없는 MMI 훈련은 모든 음향 모델 구조에서 상당한 성능 향상을 제공합니다. 여러 개의 전방향 및 후방향 RNNLM(순환 신경망 언어 모델)을 사용한 언어 모델 재점수 평가와 단어 사후 확률 기반 시스템 결합은 20%의 성능 향상을 가져다 줍니다. 가장 우수한 단일 시스템은 ResNet 구조의 음향 모델과 RNNLM 재점수 평가를 사용하여 NIST 2000 스위치보드 작업에서 6.9%의 단어 오류율을 달성했습니다. 결합된 시스템의 오류율은 6.2%로, 이 벤치마크 작업에 대한 이전 결과보다 개선되었습니다.