2 个月前
RWTH ASR系统在LibriSpeech上的应用:混合模型与注意力机制的对比——无数据增强
Christoph Lüscher; Eugen Beck; Kazuki Irie; Markus Kitza; Wilfried Michel; Albert Zeyer; Ralf Schlüter; Hermann Ney

摘要
我们介绍了最先进的自动语音识别(ASR)系统,这些系统采用了标准的混合DNN/HMM架构,并与基于注意力机制的编码器-解码器设计进行了对比,测试任务为LibriSpeech。本文详细描述了两种系统架构的开发过程,包括模型设计、预训练方案、训练计划和优化方法。无论是混合DNN/HMM系统还是基于注意力机制的系统,均使用双向LSTM进行声学建模/编码。在语言建模方面,我们采用了基于LSTM和Transformer的架构。所有系统均使用RWTH开源工具包RASR和RETURNN构建。据作者所知,在使用完整的LibriSpeech训练集进行训练时,所获得的结果目前是已发表的最佳结果,无论是在混合DNN/HMM系统还是基于注意力机制的系统中。我们的单一混合系统甚至超过了之前结合八个单一系统所得的结果。我们的比较显示,在LibriSpeech 960小时任务中,混合DNN/HMM系统的词错误率比基于注意力机制的系统低15%(相对值),在其他测试集中则低40%(相对值)。此外,在使用LibriSpeech训练语料库的100小时子集进行实验时,混合DNN/HMM与基于注意力机制的架构之间的差距更加明显。