17 天前

基于CRF的单阶段声学建模方法及其与CTC拓扑的结合

{Zhijian Ou, Hongyu Xiang}
基于CRF的单阶段声学建模方法及其与CTC拓扑的结合
摘要

本文提出一种基于条件随机场(CRF)的单阶段(SS)声学建模方法,该方法采用受连接时序分类(CTC)启发的状态拓扑结构,简称CTC-CRF。CTC-CRF在概念上简洁明了,其核心是在底层神经网络生成的特征之上构建一个CRF层,并采用特殊的状态拓扑结构。与单阶段无图最大互信息(SS-LF-MMI)类似,CTC-CRF可从零开始进行端到端训练(即“平启动”训练),无需依赖GMM-HMM预训练或音系树构建过程。我们在WSJ、Switchboard和LibriSpeech三个标准数据集上进行了评估实验。在与SS-LF-MMI的直接对比中,采用简单双向LSTM结构的CTC-CRF模型在所有三个基准数据集上,无论使用单音素(mono-phones)还是单字符(mono-chars)建模方式,均持续优于强基线模型SS-LF-MMI。此外,CTC-CRF还避免了SS-LF-MMI中一些人为设定的复杂操作,进一步提升了模型的简洁性与可训练性。