17 天前
用于语音识别的多头状态空间模型
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales

摘要
状态空间模型(State Space Models, SSMs)近期在小型序列建模与语言建模任务中展现出令人瞩目的性能,其表现已可与甚至超越多种基于注意力机制的方法。本文提出一种多头状态空间(Multi-Head State Space Model, MH-SSM)架构,该架构配备特殊的门控机制,使并行的多个头能够分别学习序列数据中的局部与全局时序动态。作为Transformer编码器中多头注意力机制的即插即用替代方案,该模型在LibriSpeech语音识别数据集上的表现显著优于Transformer Transducer。此外,我们将MH-SSM层引入Transformer模块,构建出名为Stateformer的新架构,在LibriSpeech任务上取得了当前最优的性能表现:在开发集上词错误率为1.76%/4.37%,在测试集上为1.91%/4.36%,且无需依赖外部语言模型。