HyperAIHyperAI

Command Palette

Search for a command to run...

MossFormer2:结合Transformer与无RNN循环网络以增强时域单声道语音分离

Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou Jiaqi Yip Dianwen Ng Bin Ma

摘要

我们此前提出的MossFormer在单声道语音分离任务中取得了令人瞩目的性能表现。然而,该模型主要依赖基于自注意力机制的MossFormer模块,其倾向于捕捉长距离、粗粒度的依赖关系,而在有效建模细粒度的循环模式方面存在不足。本文提出一种新型混合模型,通过将循环模块融入MossFormer框架,实现了对长距离粗粒度依赖与细粒度循环模式的联合建模能力。与传统采用递归连接的循环神经网络(RNN)不同,我们设计了一种基于前馈序列记忆网络(Feedforward Sequential Memory Network, FSMN)的循环模块,该模块因其无需使用递归连接即可捕捉循环模式,被视作“无RNN”型循环网络。该循环模块主要由一种增强型空洞FSMN块构成,其中引入了门控卷积单元(Gated Convolutional Units, GCU)和密集连接结构。此外,还增加了瓶颈层与输出层,以实现对信息流的有效调控。整个循环模块依赖线性投影与卷积操作,支持对序列的无缝、并行处理。集成后的MossFormer2混合模型在WSJ0-2mix、WSJ0-3mix、Libri2Mix以及WHAM!/WHAMR!等多个基准测试中均显著优于原始MossFormer,并超越了其他现有最先进方法(详见:https://github.com/modelscope/ClearerVoice-Studio)


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供