6 个月前

音频和语音处理

多任务学习

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

摘要

近期的端到端自动语音识别（ASR）系统已展现出超越传统混合DNN/HMM ASR系统的性能。除了架构上的改进外，这些模型在深度、参数量和模型容量方面均显著增长。然而，这类模型也需更多训练数据才能达到相当的性能水平。在本研究中，我们整合了多个可用于德语语音识别的公开语料库，包括尚未标注的语音数据，构建了一个超过1700小时的大型语音数据集。在数据准备方面，我们提出一种两阶段方法：首先利用通过连接时序分类（Connectionist Temporal Classification, CTC）预训练的ASR模型，从无分割或未标注的训练数据中自动获取更多训练样本。具体而言，通过在CTC模型上获得的标签概率，推断出语音片段的对齐结果，进而提取出有效语音片段。基于该扩充后的训练数据，我们训练了一个混合CTC/注意力机制的Transformer模型，在Tuda-DE测试集上取得了12.8%的词错误率（WER），显著优于传统混合DNN/HMM ASR系统的先前基准（14.4% WER）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

摘要

近期的端到端自动语音识别（ASR）系统已展现出超越传统混合DNN/HMM ASR系统的性能。除了架构上的改进外，这些模型在深度、参数量和模型容量方面均显著增长。然而，这类模型也需更多训练数据才能达到相当的性能水平。在本研究中，我们整合了多个可用于德语语音识别的公开语料库，包括尚未标注的语音数据，构建了一个超过1700小时的大型语音数据集。在数据准备方面，我们提出一种两阶段方法：首先利用通过连接时序分类（Connectionist Temporal Classification, CTC）预训练的ASR模型，从无分割或未标注的训练数据中自动获取更多训练样本。具体而言，通过在CTC模型上获得的标签概率，推断出语音片段的对齐结果，进而提取出有效语音片段。基于该扩充后的训练数据，我们训练了一个混合CTC/注意力机制的Transformer模型，在Tuda-DE测试集上取得了12.8%的词错误率（WER），显著优于传统混合DNN/HMM ASR系统的先前基准（14.4% WER）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供