8 个月前

音频和语音处理

自然语言处理

自然语言处理

Kazuki Irie Rohit Prabhavalkar Anjuli Kannan Antoine Bruguier David Rybach Patrick Nguyen

摘要

在传统的语音识别中，对于非音素语言如英语，音素模型的表现优于字符模型。通常情况下，随着训练数据量的增加，两者之间的性能差距会逐渐减小。在这项研究中，我们探讨了建模单元选择对基于注意力机制的编码器-解码器模型的影响。我们在LibriSpeech 100小时、460小时和960小时的任务上进行了实验，使用了不同的目标单元（音素、字符和词片段）。在所有任务中，我们发现即使没有词典或外部语言模型的支持，字符或词片段模型的表现始终优于音素模型。此外，我们还研究了模型互补性：通过使用音素或字符模型重新评分由强词片段基线生成的N最佳列表，可以将相对字错误率（WER）提高多达9%。然而，使用音素系统生成的N最佳列表进行重新评分只能提供有限的改进。进一步分析表明，词片段模型生成的N最佳假设比音素模型更加多样化，因此其理论最低WER也更低。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

自然语言处理

自然语言处理

Kazuki Irie Rohit Prabhavalkar Anjuli Kannan Antoine Bruguier David Rybach Patrick Nguyen

摘要

在传统的语音识别中，对于非音素语言如英语，音素模型的表现优于字符模型。通常情况下，随着训练数据量的增加，两者之间的性能差距会逐渐减小。在这项研究中，我们探讨了建模单元选择对基于注意力机制的编码器-解码器模型的影响。我们在LibriSpeech 100小时、460小时和960小时的任务上进行了实验，使用了不同的目标单元（音素、字符和词片段）。在所有任务中，我们发现即使没有词典或外部语言模型的支持，字符或词片段模型的表现始终优于音素模型。此外，我们还研究了模型互补性：通过使用音素或字符模型重新评分由强词片段基线生成的N最佳列表，可以将相对字错误率（WER）提高多达9%。然而，使用音素系统生成的N最佳列表进行重新评分只能提供有限的改进。进一步分析表明，词片段模型生成的N最佳假设比音素模型更加多样化，因此其理论最低WER也更低。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供