6 个月前

音频和语音处理

Zhijian Ou Hongyu Xiang

摘要

本文提出一种基于条件随机场（CRF）的单阶段（SS）声学建模方法，该方法采用受连接时序分类（CTC）启发的状态拓扑结构，简称CTC-CRF。CTC-CRF在概念上简洁明了，其核心是在底层神经网络生成的特征之上构建一个CRF层，并采用特殊的状态拓扑结构。与单阶段无图最大互信息（SS-LF-MMI）类似，CTC-CRF可从零开始进行端到端训练（即“平启动”训练），无需依赖GMM-HMM预训练或音系树构建过程。我们在WSJ、Switchboard和LibriSpeech三个标准数据集上进行了评估实验。在与SS-LF-MMI的直接对比中，采用简单双向LSTM结构的CTC-CRF模型在所有三个基准数据集上，无论使用单音素（mono-phones）还是单字符（mono-chars）建模方式，均持续优于强基线模型SS-LF-MMI。此外，CTC-CRF还避免了SS-LF-MMI中一些人为设定的复杂操作，进一步提升了模型的简洁性与可训练性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Zhijian Ou Hongyu Xiang

摘要

本文提出一种基于条件随机场（CRF）的单阶段（SS）声学建模方法，该方法采用受连接时序分类（CTC）启发的状态拓扑结构，简称CTC-CRF。CTC-CRF在概念上简洁明了，其核心是在底层神经网络生成的特征之上构建一个CRF层，并采用特殊的状态拓扑结构。与单阶段无图最大互信息（SS-LF-MMI）类似，CTC-CRF可从零开始进行端到端训练（即“平启动”训练），无需依赖GMM-HMM预训练或音系树构建过程。我们在WSJ、Switchboard和LibriSpeech三个标准数据集上进行了评估实验。在与SS-LF-MMI的直接对比中，采用简单双向LSTM结构的CTC-CRF模型在所有三个基准数据集上，无论使用单音素（mono-phones）还是单字符（mono-chars）建模方式，均持续优于强基线模型SS-LF-MMI。此外，CTC-CRF还避免了SS-LF-MMI中一些人为设定的复杂操作，进一步提升了模型的简洁性与可训练性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供