1 个月前

摘要

本文提出了一种基于FastConformer架构的高效且准确的流式语音识别模型。我们通过以下两种方式对FastConformer架构进行了适配，以支持流式应用：（1）在编码器中同时限制前瞻（look-ahead）和历史上下文的范围；（2）引入激活值缓存机制，使非自回归编码器在推理阶段能够实现自回归运行。所提出的模型经过精心设计，有效消除了许多流式模型在训练与推理阶段之间普遍存在的性能差异。此外，该编码器可与多种解码器配置协同工作，包括连接时序分类（Connectionist Temporal Classification, CTC）和RNN-Transducer（RNNT）解码器。我们还提出了一种混合CTC/RNNT架构，该架构采用共享编码器，并同时配备CTC与RNNT解码器，从而在提升识别准确率的同时减少计算开销。我们在LibriSpeech数据集以及一个多领域大规模数据集上对所提模型进行了评估，结果表明，相较于传统的缓冲式流式模型基线，该模型在保持更低延迟和更短推理时间的前提下，实现了更高的识别准确率。此外，我们证明了通过多延迟训练策略训练的模型，能够在保持单一模型支持多种延迟能力的同时，获得优于单延迟模型的性能。实验还表明，该混合架构不仅能够加速CTC解码器的收敛过程，还能显著提升流式语音识别模型的整体准确率，优于仅使用单一解码器的模型。

源 PDF