17 天前

SpeechStew:仅需混合所有可用的语音识别数据以训练单一大型神经网络

William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi
SpeechStew:仅需混合所有可用的语音识别数据以训练单一大型神经网络
摘要

我们提出了一种名为 SpeechStew 的语音识别模型,该模型在多种公开可用的语音识别数据集上进行训练,包括 AMI、Broadcast News、Common Voice、LibriSpeech、Switchboard/Fisher、Tedlium 以及 Wall Street Journal。SpeechStew 仅将这些数据集简单地混合在一起进行训练,未采用任何特殊的加权或数据平衡策略。在无需使用外部语言模型的前提下,SpeechStew 在多个任务上取得了当前最优(SoTA)或接近最优的性能表现。具体结果包括:在 AMI-IHM 任务上达到 9.0% 的词错误率(WER),Switchboard 任务上为 4.7%,CallHome 任务上为 8.3%,Wall Street Journal 任务上仅为 1.3%。这些结果显著优于以往依赖强外部语言模型的工作。此外,我们还证明了 SpeechStew 能够学习到强大的迁移学习表征能力。在噪声环境下低资源语音数据集 CHiME-6 上进行微调后,SpeechStew 在未使用语言模型的情况下实现了 38.9% 的 WER,与采用语言模型的强 HMM 基线模型(38.6% WER)相比表现相当,充分展现了其在复杂场景下的鲁棒性与有效性。