HyperAIHyperAI

Command Palette

Search for a command to run...

用于语音识别的多头状态空间模型

摘要

状态空间模型(State Space Models, SSMs)近期在小型序列建模与语言建模任务中展现出令人瞩目的性能,其表现已可与甚至超越多种基于注意力机制的方法。本文提出一种多头状态空间(Multi-Head State Space Model, MH-SSM)架构,该架构配备特殊的门控机制,使并行的多个头能够分别学习序列数据中的局部与全局时序动态。作为Transformer编码器中多头注意力机制的即插即用替代方案,该模型在LibriSpeech语音识别数据集上的表现显著优于Transformer Transducer。此外,我们将MH-SSM层引入Transformer模块,构建出名为Stateformer的新架构,在LibriSpeech任务上取得了当前最优的性能表现:在开发集上词错误率为1.76%/4.37%,在测试集上为1.91%/4.36%,且无需依赖外部语言模型。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供