17 天前

统一的流式与非流式两阶段端到端语音识别模型

Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei

摘要

本文提出了一种新颖的两阶段方法，旨在通过单一模型统一流式与非流式端到端（E2E）语音识别。该模型采用混合CTC/注意力架构，其中编码器中的Conformer层进行了相应改进。我们提出了一种动态分块注意力机制，以支持任意长度的右文上下文。在推理阶段，CTC解码器以流式方式生成n-best候选结果，通过调整分块大小即可轻松控制推理延迟。随后，这些CTC候选结果由注意力解码器进行重评分，以获得最终识别结果。该高效的重评分过程带来的句级延迟极小。在公开的170小时AISHELL-1数据集上的实验表明，所提出的方法能够简洁而高效地实现流式与非流式模型的统一。在AISHELL-1测试集上，该统一模型相较于标准非流式Transformer模型，在非流式语音识别任务中实现了5.60%的相对字符错误率（CER）降低；而在流式语音识别系统中，仅需640ms延迟即可达到5.42%的CER。