15 天前

MossFormer2：结合Transformer与无RNN循环网络以增强时域单声道语音分离

Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Jiaqi Yip, Dianwen Ng, Bin Ma

摘要

我们此前提出的MossFormer在单声道语音分离任务中取得了令人瞩目的性能表现。然而，该模型主要依赖基于自注意力机制的MossFormer模块，其倾向于捕捉长距离、粗粒度的依赖关系，而在有效建模细粒度的循环模式方面存在不足。本文提出一种新型混合模型，通过将循环模块融入MossFormer框架，实现了对长距离粗粒度依赖与细粒度循环模式的联合建模能力。与传统采用递归连接的循环神经网络（RNN）不同，我们设计了一种基于前馈序列记忆网络（Feedforward Sequential Memory Network, FSMN）的循环模块，该模块因其无需使用递归连接即可捕捉循环模式，被视作“无RNN”型循环网络。该循环模块主要由一种增强型空洞FSMN块构成，其中引入了门控卷积单元（Gated Convolutional Units, GCU）和密集连接结构。此外，还增加了瓶颈层与输出层，以实现对信息流的有效调控。整个循环模块依赖线性投影与卷积操作，支持对序列的无缝、并行处理。集成后的MossFormer2混合模型在WSJ0-2mix、WSJ0-3mix、Libri2Mix以及WHAM!/WHAMR!等多个基准测试中均显著优于原始MossFormer，并超越了其他现有最先进方法（详见：https://github.com/modelscope/ClearerVoice-Studio）。