
摘要
在本文中,我们提出了一种自适应计算步骤(Adaptive Computation Steps, ACS)算法,该算法使端到端语音识别模型能够动态决定需要处理多少帧来预测语言输出。应用了ACS算法的模型遵循编码器-解码器框架,但与基于注意力的模型不同,它利用相邻帧之间的相关性在编码器侧独立生成对齐。因此,只要接收到足够的声学信息,就可以立即进行预测,这使得该模型适用于在线场景。此外,我们在编码器-解码器框架的解码阶段进行了小幅修改,允许预测利用双向上下文。我们在普通话语音数据集AIShell-1上验证了ACS算法,在线场景下其字符错误率(CER)为31.2%,而基于注意力的模型的CER为32.4%。为了充分展示ACS算法的优势,我们还进行了离线实验,在这些实验中我们的ACS模型达到了18.7%的CER,优于基于注意力的模型22.0%的CER。