15 天前

MossFormer2:结合Transformer与无RNN循环网络以增强时域单声道语音分离

Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Jiaqi Yip, Dianwen Ng, Bin Ma
MossFormer2:结合Transformer与无RNN循环网络以增强时域单声道语音分离
摘要

我们此前提出的MossFormer在单声道语音分离任务中取得了令人瞩目的性能表现。然而,该模型主要依赖基于自注意力机制的MossFormer模块,其倾向于捕捉长距离、粗粒度的依赖关系,而在有效建模细粒度的循环模式方面存在不足。本文提出一种新型混合模型,通过将循环模块融入MossFormer框架,实现了对长距离粗粒度依赖与细粒度循环模式的联合建模能力。与传统采用递归连接的循环神经网络(RNN)不同,我们设计了一种基于前馈序列记忆网络(Feedforward Sequential Memory Network, FSMN)的循环模块,该模块因其无需使用递归连接即可捕捉循环模式,被视作“无RNN”型循环网络。该循环模块主要由一种增强型空洞FSMN块构成,其中引入了门控卷积单元(Gated Convolutional Units, GCU)和密集连接结构。此外,还增加了瓶颈层与输出层,以实现对信息流的有效调控。整个循环模块依赖线性投影与卷积操作,支持对序列的无缝、并行处理。集成后的MossFormer2混合模型在WSJ0-2mix、WSJ0-3mix、Libri2Mix以及WHAM!/WHAMR!等多个基准测试中均显著优于原始MossFormer,并超越了其他现有最先进方法(详见:https://github.com/modelscope/ClearerVoice-Studio)。