17 天前

3M:用于语音识别的多损失、多路径与多层级神经网络

Zhao You, Shulin Feng, Dan Su, Dong Yu
3M:用于语音识别的多损失、多路径与多层级神经网络
摘要

近年来,基于Conformer的CTC/AED模型已成为自动语音识别(ASR)任务中的主流架构。本文在前期工作的基础上,提出并整合了多种改进方法,以进一步提升ASR性能,统称为“3M”模型,即多损失(multi-loss)、多路径(multi-path)与多层次(multi-level)策略。具体而言,多损失指联合优化CTC与AED损失函数;多路径采用专家混合(Mixture-of-Experts, MoE)架构,在不显著增加计算开销的前提下有效提升模型容量;多层次则是在深度模型的多个层级引入辅助损失,以辅助训练过程。我们在公开的WenetSpeech数据集上对所提方法进行了评估,实验结果表明,与使用Wenet工具链训练的基线模型相比,该方法在相对词错误率(CER)上实现了12.2%至17.6%的显著提升。在包含15万小时语音数据的超大规模语料库上,3M模型同样展现出相较于基线Conformer模型的明显优势。相关代码已公开,地址为:https://github.com/tencent-ailab/3m-asr。