2 个月前
使用未配对语音和文本的半监督序列到序列ASR
Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

摘要
序列到序列自动语音识别(ASR)模型需要大量数据才能达到高性能。因此,近期在这些模型的无监督和半监督训练方面出现了浓厚的兴趣。本研究基于最近的结果,展示了使用循环一致性(cycle-consistency)及相关技术在半监督训练中取得的显著改进。这些技术通过结合ASR与文本到语音(TTS)模型,推导出能够利用未配对的语音和/或文本数据的训练方法和损失函数。特别是,本研究提出了一种新的半监督损失函数,该函数结合了端到端可微分的ASR→TTS损失与TTS→ASR损失。该方法能够同时利用未配对的语音和文本数据,在%WER方面超越最近提出的相关技术。我们提供了详尽的结果,分析了数据量以及语音和文本模态的影响,并在WSJ和Librispeech语料库上展示了一致的性能提升。我们的代码已提供在ESPnet中,以便重现实验结果。