
摘要
基于子词单元的序列到序列注意力模型可以实现简单的开放词汇端到端语音识别。在本研究中,我们展示了此类模型在Switchboard 300小时和LibriSpeech 1000小时任务上能够取得具有竞争力的结果。特别是,我们在LibriSpeech的dev-clean和test-clean评估子集上报告了最新的词错误率(WER),分别为3.54%和3.82%。我们引入了一种新的预训练方案,即从较高的时间压缩因子开始并在训练过程中逐渐降低该因子,这对于收敛性和最终性能都至关重要。在某些实验中,我们还使用了辅助的CTC损失函数来帮助模型收敛。此外,我们还在子词单元上训练了长短时记忆(LSTM)语言模型。通过浅层融合技术,我们在没有语言模型的情况下相对于注意力基线模型实现了高达27%的相对WER改进。