
摘要
卷积神经网络(CNNs)是许多当前最先进的大词汇量连续语音识别(LVCSR)系统中的标准组件。然而,LVCSR领域的CNNs并未跟上其他领域中深度神经网络的最新进展,后者在性能上提供了显著的优势。本文提出了几种用于LVCSR的CNN架构改进。首先,我们引入了一种非常深的卷积网络架构,最多包含14个权重层。在每个池化层之前有多层卷积层,使用小的3x3内核,这一设计灵感来源于VGG Imagenet 2014架构。其次,我们引入了多语言CNNs,其中包含多个未绑定的层。最后,我们引入了多尺度输入特征,旨在以几乎可以忽略的计算成本利用更多的上下文信息。我们在一个低资源语音识别任务——Babel任务上评估了这些改进的效果,通过在六种不同语言的组合数据上训练我们的CNN,相对于基线PLP DNN模型,绝对词错误率(WER)降低了5.77%。随后,我们在Hub5'00基准测试中评估了非常深的CNNs(使用262小时的SWB-1训练数据),经过交叉熵训练后,达到了11.8%的词错误率,相比迄今为止已发表的最佳CNN结果,绝对词错误率降低了1.4%,相对降低了10.6%。