15 天前

SPGM:优先关注局部特征以提升语音分离性能

Jia Qi Yip, Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Dianwen Ng, Eng Siong Chng, Bin Ma
SPGM:优先关注局部特征以提升语音分离性能
摘要

双路径(Dual-path)是语音分离模型(如Sepformer)中一种流行的架构,其将长序列分割为重叠的块,分别在块内(intra-block)和块间(inter-block)进行建模,以捕捉块内局部特征与块间全局关系。然而,研究发现,构成双路径模型一半参数量的块间模块对性能提升贡献甚微。为此,我们提出单路径全局调制(Single-Path Global Modulation, SPGM)模块,用于替代原有的块间模块。SPGM模块名称源于其结构设计:由一个无参数的全局池化模块,后接一个仅占模型总参数量2%的调制模块构成。该设计使模型中所有Transformer层均可专注于局部特征建模,从而实现全模型的单路径结构。在WSJ0-2Mix数据集上,SPGM达到22.1 dB的SI-SDRi性能,在Libri2Mix数据集上达到20.4 dB,分别较Sepformer提升0.5 dB和0.3 dB,且在性能上达到甚至超越近期最先进模型水平,同时参数量最多可减少至其1/8。相关模型与权重已发布于Hugging Face:huggingface.co/yipjiaqi/spgm。

SPGM:优先关注局部特征以提升语音分离性能 | 最新论文 | HyperAI超神经