17 天前
统一的流式与非流式两阶段端到端语音识别模型
Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei

摘要
本文提出了一种新颖的两阶段方法,旨在通过单一模型统一流式与非流式端到端(E2E)语音识别。该模型采用混合CTC/注意力架构,其中编码器中的Conformer层进行了相应改进。我们提出了一种动态分块注意力机制,以支持任意长度的右文上下文。在推理阶段,CTC解码器以流式方式生成n-best候选结果,通过调整分块大小即可轻松控制推理延迟。随后,这些CTC候选结果由注意力解码器进行重评分,以获得最终识别结果。该高效的重评分过程带来的句级延迟极小。在公开的170小时AISHELL-1数据集上的实验表明,所提出的方法能够简洁而高效地实现流式与非流式模型的统一。在AISHELL-1测试集上,该统一模型相较于标准非流式Transformer模型,在非流式语音识别任务中实现了5.60%的相对字符错误率(CER)降低;而在流式语音识别系统中,仅需640ms延迟即可达到5.42%的CER。