HyperAIHyperAI

Command Palette

Search for a command to run...

基于字母的语音识别与门控卷积网络

Vitaliy Liptchinsky Gabriel Synnaeve Ronan Collobert

摘要

在近期的文献中,“端到端”语音系统通常指的是以字母为基础的声学模型,这些模型以序列到序列的方式进行训练,可以采用递归模型或结构化输出学习方法(如CTC)。与传统的音素(或音子)基础方法相比,这些“端到端”方法减轻了对单词发音建模的需求,并且在训练时不需要“强制对齐”步骤。然而,基于音素的方法在经典基准测试中仍然处于领先地位。本文提出了一种基于字母的语音识别系统,该系统利用卷积神经网络(ConvNet)声学模型。卷积神经网络的关键成分包括门控线性单元(Gated Linear Units)和高dropout率。该卷积神经网络被训练用于将音频序列映射到相应的字母转录,可以通过经典的CTC方法或最近的一种变体ASG进行训练。结合简单的解码器在推理阶段使用,我们的系统在WSJ数据集上的表现与现有的最佳字母基础系统相当(以词错误率衡量),并在LibriSpeech数据集上显示出接近最先进水平的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供