6 个月前

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

我们提出了一种用于自动语音识别（ASR）的新一代端到端神经声学模型。该模型由多个模块组成，模块之间通过残差连接（residual connections）相连。每个模块包含一个或多个由一维时空可分离卷积层（1D time-channel separable convolutional layers）、批归一化（batch normalization）以及ReLU激活层构成的组件。模型采用连接时序分类（CTC）损失函数进行训练。实验结果表明，该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率，同时参数量少于所有对比模型。此外，我们还证明该模型能够有效地在新数据集上进行微调（fine-tuning）。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

我们提出了一种用于自动语音识别（ASR）的新一代端到端神经声学模型。该模型由多个模块组成，模块之间通过残差连接（residual connections）相连。每个模块包含一个或多个由一维时空可分离卷积层（1D time-channel separable convolutional layers）、批归一化（batch normalization）以及ReLU激活层构成的组件。模型采用连接时序分类（CTC）损失函数进行训练。实验结果表明，该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率，同时参数量少于所有对比模型。此外，我们还证明该模型能够有效地在新数据集上进行微调（fine-tuning）。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

QuartzNet：基于一维时空可分离卷积的深度自动语音识别 | 论文 | HyperAI超神经

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

用 AI 构建 AI

HyperAI Newsletters