17 天前

BAT:面向内存高效与低延迟自动语音识别的边界感知转换器

Keyu An, Xian Shi, Shiliang Zhang
BAT:面向内存高效与低延迟自动语音识别的边界感知转换器
摘要

近年来,循环神经网络转换器(Recurrent Neural Network Transducer, RNN-T)因其天然的流式处理能力以及优异的性能而受到越来越多的关注。然而,RNN-T的训练过程需要大量的时间和计算资源,主要原因是其损失函数的计算效率较低且内存开销较大。此外,RNN-T的一个固有局限在于,为获得更优性能,模型倾向于访问更多的上下文信息,从而导致在流式自动语音识别(Streaming ASR)中产生较高的输出延迟。针对这一问题,本文提出了一种边界感知转换器(Boundary-aware Transducer, BAT),旨在实现高效内存利用与低延迟的流式ASR。在BAT中,RNN-T损失计算所依赖的解码格(lattice)被限制在由连续积分-放电(Continuous Integrate-and-Fire, CIF)模型对齐结果所确定的局部区域内,该区域与RNN-T模型联合优化。大量实验结果表明,相较于传统的RNN-T,BAT在训练阶段显著降低了时间和内存消耗,并在推理阶段实现了良好的词错误率(CER)与延迟之间的权衡,适用于实时流式语音识别场景。

BAT:面向内存高效与低延迟自动语音识别的边界感知转换器 | 最新论文 | HyperAI超神经