2 个月前

全卷积语音识别

Neil Zeghidour; Qiantong Xu; Vitaliy Liptchinsky; Nicolas Usunier; Gabriel Synnaeve; Ronan Collobert
全卷积语音识别
摘要

当前最先进的语音识别系统基于循环神经网络进行声学建模和/或语言建模,并依赖特征提取管道来提取梅尔滤波器组或倒谱系数。本文提出了一种完全基于卷积神经网络的替代方法,利用了从原始波形中提取声学模型和语言建模方面的最新进展。这种全卷积方法端到端地训练,直接从原始波形预测字符,完全去除了特征提取步骤。外部卷积语言模型用于解码单词。在《华尔街日报》数据集上,我们的模型达到了目前的最先进水平。在LibriSpeech数据集上,我们报告了在端到端模型中的最先进性能,包括使用12倍更多声学数据和显著更多语言数据训练的Deep Speech 2。