
摘要
端到端自动语音识别(ASR)与传统ASR不同,其语音编码器不包含专门用于学习语义表征的模块。此外,语音表征的较高帧率会妨碍模型有效学习语义信息。因此,采用较低帧率的语音编码器所构建的模型通常能取得更优性能。对于基于Transformer的ASR系统而言,降低帧率不仅有助于提升语义表征的学习效果,还能显著降低计算复杂度——这是因为Transformer的自注意力机制在训练和推理阶段均具有O(n²)的时间复杂度。本文提出一种基于Transformer的ASR模型,引入时间下采样层(time reduction layer),在传统子采样方法的基础上,将该层嵌入Transformer编码器内部,进一步降低输入特征的帧率。这一设计有效减少了自注意力机制在训练和推理过程中的计算开销,同时提升了模型性能。此外,我们提出一种基于自知识蒸馏(Self-Knowledge Distillation, S-KD)的微调方法,用于预训练ASR模型,进一步优化了模型表现。在LibriSpeech数据集上的实验结果表明,所提出的模型在各项指标上均优于现有的所有基于Transformer的ASR系统。进一步结合语言模型(LM)融合后,仅使用3000万参数、未依赖任何外部数据训练的模型,即在基于Transformer的ASR系统中达到了新的最先进词错误率(Word Error Rate, WER)水平。