
摘要
我们提出了一种在隐马尔可夫模型(HMM)框架下,采用无格点最大互信息(Lattice-Free Maximum Mutual Information, LF-MMI)目标函数进行端到端训练声学模型的研究工作。所谓端到端训练,指的是在单一阶段内对一个单一的深度神经网络(DNN)进行从零开始的训练,无需依赖先前训练好的模型、强制对齐信息,也无需构建状态绑定决策树。我们采用完整的双音素(full biphones)结构,在不依赖树结构的情况下实现上下文相关建模,并证明所提出的端到端LF-MMI方法在多个知名的大词汇量任务上可取得与传统LF-MMI相当的性能表现。此外,我们还将该方法与其他端到端模型(如基于字符的CTC)在无词典(lexicon-free)设置下进行了对比,结果表明,在不同大词汇量任务上,词错误率(Word Error Rate, WER)相对降低了5%至25%,同时所使用的模型规模显著减小。