摘要

当前最先进的语音识别系统基于循环神经网络进行声学建模和/或语言建模，并依赖特征提取管道来提取梅尔滤波器组或倒谱系数。本文提出了一种完全基于卷积神经网络的替代方法，利用了从原始波形中提取声学模型和语言建模方面的最新进展。这种全卷积方法端到端地训练，直接从原始波形预测字符，完全去除了特征提取步骤。外部卷积语言模型用于解码单词。在《华尔街日报》数据集上，我们的模型达到了目前的最先进水平。在LibriSpeech数据集上，我们报告了在端到端模型中的最先进性能，包括使用12倍更多声学数据和显著更多语言数据训练的Deep Speech 2。

源 PDF