4 个月前

基于字母的语音识别与门控卷积网络

Vitaliy Liptchinsky; Gabriel Synnaeve; Ronan Collobert
基于字母的语音识别与门控卷积网络
摘要

在近期的文献中,“端到端”语音系统通常指的是以字母为基础的声学模型,这些模型以序列到序列的方式进行训练,可以采用递归模型或结构化输出学习方法(如CTC)。与传统的音素(或音子)基础方法相比,这些“端到端”方法减轻了对单词发音建模的需求,并且在训练时不需要“强制对齐”步骤。然而,基于音素的方法在经典基准测试中仍然处于领先地位。本文提出了一种基于字母的语音识别系统,该系统利用卷积神经网络(ConvNet)声学模型。卷积神经网络的关键成分包括门控线性单元(Gated Linear Units)和高dropout率。该卷积神经网络被训练用于将音频序列映射到相应的字母转录,可以通过经典的CTC方法或最近的一种变体ASG进行训练。结合简单的解码器在推理阶段使用,我们的系统在WSJ数据集上的表现与现有的最佳字母基础系统相当(以词错误率衡量),并在LibriSpeech数据集上显示出接近最先进水平的性能。