2 个月前

微软2016年会话语音识别系统

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig
微软2016年会话语音识别系统
摘要

我们描述了微软的对话语音识别系统,该系统结合了基于神经网络的声学模型和语言模型的最新进展,以提升在Switchboard识别任务上的技术水平。受机器学习集成技术的启发,该系统采用了多种卷积神经网络和循环神经网络。I-向量建模和无晶格最大互信息(Lattice-free MMI)训练为所有声学模型架构带来了显著的性能提升。通过多个前向和后向运行的递归神经网络语言模型(RNNLM)进行语言模型重评分,以及基于词后验概率的系统组合,提供了20%的性能提升。最佳单一系统使用了ResNet架构的声学模型,并结合了RNNLM重评分,在NIST 2000 Switchboard任务中达到了6.9%的词错误率。组合系统的错误率为6.2%,这标志着在此基准任务上相比之前报告的结果有了显著改进。