
摘要
近期,卷积增强型 Transformer(Conformer)在自动语音识别(ASR)任务中展现出优异性能,超越了此前发表的最佳 Transformer Transducer 模型。在本研究中,我们认为编码器与解码器中每一层的输出信息并不完全包含全部有效信息,即各层输出之间可能存在互补性。为此,我们探索如何以参数高效的方式充分利用各层之间的互补信息,期望由此提升模型的鲁棒性。基于此,我们提出了一种面向语音识别的新型架构——块增强型 Transformer(Blockformer)。我们实现了两种块集成方法:基础加权求和块输出(Base-WSBO),以及结合挤压-激励模块的加权求和块输出(SE-WSBO)。实验结果表明,Blockformer 在 AISHELL-1 数据集上显著优于当前最先进的 Conformer 基线模型。在不使用语言模型的情况下,模型在测试集上达到 4.29% 的词错误率(CER);在引入外部语言模型后,CER 进一步降低至 4.05%。