
摘要
我们提出了一种新颖的深度循环神经网络(RNN)模型,用于自动语音识别(ASR)中的声学建模。我们将这一贡献称为TC-DNN-BLSTM-DNN模型,该模型结合了深度神经网络(DNN)与时间卷积(TC),随后通过双向长短期记忆(BLSTM)网络,最后再接一个DNN。第一个DNN作为特征处理器,为我们的模型提供输入;BLSTM则从序列声学信号中生成上下文信息;最终的DNN利用这些上下文信息,对声学状态的后验概率进行建模。我们在华尔街日报(WSJ)eval92任务上实现了3.47%的词错误率(WER),相比基线DNN模型,相对改进超过8%。