
摘要
我们描述了一组声学建模和语言建模技术,这些技术将我们的英语会话电话连续语音识别(LVCSR)系统的单词错误率降低到了在Hub5 2000评估测试集的Switchboard子集上的创纪录的6.6%。在声学建模方面,我们采用了三种强大的模型的得分融合:具有最大输出激活函数的循环神经网络、使用3x3卷积核的非常深的卷积神经网络以及在FMLLR和i-vector特征上运行的双向长短时记忆网络。在语言建模方面,我们使用了更新后的模型“M”和分层神经网络语言模型(Hierarchical Neural Network LMs)。