6 个月前

音频和语音处理

Keyu An Hongyu Xiang Zhijian Ou

摘要

本文提出了一种新的开源语音识别工具包，名为CAT（基于CTC-CRF的自动语音识别工具包）。CAT继承了混合模型的数据高效性与端到端（E2E）模型的简洁性，提供了CTC-CRF模型的完整实现，以及多个英文和中文基准数据集的完整训练与测试脚本。实验结果表明，CAT取得了当前最先进的性能，其效果可与Kaldi中微调后的混合模型相媲美，但训练流程显著简化。相较于现有非模块化的E2E模型，CAT在小规模数据集上表现更优，充分体现了其数据高效性。此外，我们提出了一种名为“上下文感知的软遗忘”（contextualized soft forgetting）的新方法，使CAT能够在实现流式语音识别的同时，保持高识别准确率，避免性能下降。我们期望CAT，尤其是基于CTC-CRF的框架与软件，能够引起社区的广泛关注，并推动进一步的研究与优化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Keyu An Hongyu Xiang Zhijian Ou

摘要

本文提出了一种新的开源语音识别工具包，名为CAT（基于CTC-CRF的自动语音识别工具包）。CAT继承了混合模型的数据高效性与端到端（E2E）模型的简洁性，提供了CTC-CRF模型的完整实现，以及多个英文和中文基准数据集的完整训练与测试脚本。实验结果表明，CAT取得了当前最先进的性能，其效果可与Kaldi中微调后的混合模型相媲美，但训练流程显著简化。相较于现有非模块化的E2E模型，CAT在小规模数据集上表现更优，充分体现了其数据高效性。此外，我们提出了一种名为“上下文感知的软遗忘”（contextualized soft forgetting）的新方法，使CAT能够在实现流式语音识别的同时，保持高识别准确率，避免性能下降。我们期望CAT，尤其是基于CTC-CRF的框架与软件，能够引起社区的广泛关注，并推动进一步的研究与优化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供