HyperAIHyperAI

Command Palette

Search for a command to run...

使用未配对语音和文本的半监督序列到序列ASR

Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

摘要

序列到序列自动语音识别(ASR)模型需要大量数据才能达到高性能。因此,近期在这些模型的无监督和半监督训练方面出现了浓厚的兴趣。本研究基于最近的结果,展示了使用循环一致性(cycle-consistency)及相关技术在半监督训练中取得的显著改进。这些技术通过结合ASR与文本到语音(TTS)模型,推导出能够利用未配对的语音和/或文本数据的训练方法和损失函数。特别是,本研究提出了一种新的半监督损失函数,该函数结合了端到端可微分的ASR→TTS损失与TTS→ASR损失。该方法能够同时利用未配对的语音和文本数据,在%WER方面超越最近提出的相关技术。我们提供了详尽的结果,分析了数据量以及语音和文本模态的影响,并在WSJ和Librispeech语料库上展示了一致的性能提升。我们的代码已提供在ESPnet中,以便重现实验结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供