2 个月前

构建大词汇量语音识别的深度神经网络声学模型

Andrew L. Maas; Peng Qi; Ziang Xie; Awni Y. Hannun; Christopher T. Lengerich; Daniel Jurafsky; Andrew Y. Ng
构建大词汇量语音识别的深度神经网络声学模型
摘要

深度神经网络(DNNs)如今已成为几乎所有最先进语音识别系统的核心组成部分。构建神经网络声学模型需要做出多个设计决策,包括网络架构、规模和训练损失函数。本文对影响语音识别系统性能的DNN声学模型设计方面进行了实证研究。我们报告了DNN分类器的性能以及最终语音识别器的词错误率,并通过多种指标比较了DNNs,以量化影响任务性能差异的因素。我们的第一组实验使用了标准的Switchboard基准语料库,该语料库包含大约300小时的会话电话语音。我们将标准DNN与卷积网络进行对比,并首次展示了使用局部连接且未绑定(untied)的神经网络进行声学建模的实验。此外,我们还结合Switchboard和Fisher语料库构建了一个包含2,100小时训练数据的系统。这一更大的语料库使我们能够更全面地考察大规模DNN模型的性能——这些模型的参数量比通常用于语音识别系统的模型多出十倍。我们的结果表明,相对简单的DNN架构和优化技术可以产生强大的效果。这些发现连同先前的研究,有助于确立一套最佳实践,用于构建基于最大似然训练的DNN混合语音识别系统。我们在DNN优化方面的实验还为使用判别性损失函数训练适用于语音任务及更广泛的DNN分类器提供了一个案例研究。