2 个月前

Jasper:端到端卷积神经声学模型

Jason Li; Vitaly Lavrukhin; Boris Ginsburg; Ryan Leary; Oleksii Kuchaiev; Jonathan M. Cohen; Huyen Nguyen; Ravi Teja Gadde
Jasper:端到端卷积神经声学模型
摘要

本文报告了在无需任何外部训练数据的情况下,端到端语音识别模型在LibriSpeech数据集上的最新成果。我们的模型Jasper仅使用一维卷积、批归一化、ReLU激活函数、dropout以及残差连接。为了改进训练效果,我们进一步引入了一种新的逐层优化器——NovoGrad。通过实验,我们证明所提出的深度架构在性能上与更复杂的选择相当或更优。我们最深的Jasper变体使用了54个卷积层。利用这一架构,我们在LibriSpeech测试集(test-clean)上使用带有外部神经语言模型的束搜索解码器达到了2.95%的词错误率(WER),而使用贪婪解码器则达到了3.86%的词错误率。此外,我们在《华尔街日报》和Hub5'00对话评估数据集上也取得了具有竞争力的结果。