17 天前
基于无格点MMI的纯序列训练神经网络语音识别
{Sanjeev Khudanpur, Xingyu Na, Yiming Wang, Daniel Povey, Vimal Manohar, Vijayaditya Peddinti, Pegah Ghahrmani, Daniel Galvez}

摘要
本文提出了一种无需帧级交叉熵预训练即可实现神经网络声学模型序列判别性训练的方法。我们采用无词网(lattice-free)最大互信息(Maximum Mutual Information, MMI)准则——LF-MMI。为使该方法的计算可行,我们使用音素n元语法语言模型(phone n-gram language model)替代传统的词语言模型(word language model)。为进一步降低其空间与时间复杂度,我们在计算目标函数时,仅使用标准帧率三分之一的神经网络输出。这一改进使得前向-后向算法的计算能够高效地在GPU上实现。此外,降低输出帧率也显著提升了解码阶段的运行速度。我们在5个不同的大词汇量连续语音识别(LVCSR)任务上进行了实验,训练数据量从100小时到2100小时不等。与采用交叉熵(cross-entropy)目标函数训练的模型相比,LF-MMI训练的模型实现了约11.5%的相对词错误率(WER)降低;与同时采用交叉熵和sMBR(stochastic Minimum Bayes Risk)目标函数训练的模型相比,相对误差率降低约8%。此外,通过使用基于词网的sMBR目标函数对这些模型进行微调,还可进一步获得约2.5%(相对)的误差率降低。