17 天前

用于语音识别的多头状态空间模型

Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales
用于语音识别的多头状态空间模型
摘要

状态空间模型(State Space Models, SSMs)近期在小型序列建模与语言建模任务中展现出令人瞩目的性能,其表现已可与甚至超越多种基于注意力机制的方法。本文提出一种多头状态空间(Multi-Head State Space Model, MH-SSM)架构,该架构配备特殊的门控机制,使并行的多个头能够分别学习序列数据中的局部与全局时序动态。作为Transformer编码器中多头注意力机制的即插即用替代方案,该模型在LibriSpeech语音识别数据集上的表现显著优于Transformer Transducer。此外,我们将MH-SSM层引入Transformer模块,构建出名为Stateformer的新架构,在LibriSpeech任务上取得了当前最优的性能表现:在开发集上词错误率为1.76%/4.37%,在测试集上为1.91%/4.36%,且无需依赖外部语言模型。