17 天前

SpeechStew：仅需混合所有可用的语音识别数据以训练单一大型神经网络

William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi

摘要

我们提出了一种名为 SpeechStew 的语音识别模型，该模型在多种公开可用的语音识别数据集上进行训练，包括 AMI、Broadcast News、Common Voice、LibriSpeech、Switchboard/Fisher、Tedlium 以及 Wall Street Journal。SpeechStew 仅将这些数据集简单地混合在一起进行训练，未采用任何特殊的加权或数据平衡策略。在无需使用外部语言模型的前提下，SpeechStew 在多个任务上取得了当前最优（SoTA）或接近最优的性能表现。具体结果包括：在 AMI-IHM 任务上达到 9.0% 的词错误率（WER），Switchboard 任务上为 4.7%，CallHome 任务上为 8.3%，Wall Street Journal 任务上仅为 1.3%。这些结果显著优于以往依赖强外部语言模型的工作。此外，我们还证明了 SpeechStew 能够学习到强大的迁移学习表征能力。在噪声环境下低资源语音数据集 CHiME-6 上进行微调后，SpeechStew 在未使用语言模型的情况下实现了 38.9% 的 WER，与采用语言模型的强 HMM 基线模型（38.6% WER）相比表现相当，充分展现了其在复杂场景下的鲁棒性与有效性。