7 个月前

摘要

我们描述了一组声学建模和语言建模技术，这些技术将我们的英语会话电话连续语音识别（LVCSR）系统的单词错误率降低到了在Hub5 2000评估测试集的Switchboard子集上的创纪录的6.6%。在声学建模方面，我们采用了三种强大的模型的得分融合：具有最大输出激活函数的循环神经网络、使用3x3卷积核的非常深的卷积神经网络以及在FMLLR和i-vector特征上运行的双向长短时记忆网络。在语言建模方面，我们使用了更新后的模型“M”和分层神经网络语言模型（Hierarchical Neural Network LMs）。

源 PDF