8 个月前

摘要

我们提出了一种新颖的深度循环神经网络（RNN）模型，用于自动语音识别（ASR）中的声学建模。我们将这一贡献称为TC-DNN-BLSTM-DNN模型，该模型结合了深度神经网络（DNN）与时间卷积（TC），随后通过双向长短期记忆（BLSTM）网络，最后再接一个DNN。第一个DNN作为特征处理器，为我们的模型提供输入；BLSTM则从序列声学信号中生成上下文信息；最终的DNN利用这些上下文信息，对声学状态的后验概率进行建模。我们在华尔街日报（WSJ）eval92任务上实现了3.47%的词错误率（WER），相比基线DNN模型，相对改进超过8%。

源 PDF