HyperAIHyperAI

Command Palette

Search for a command to run...

SPGM:优先关注局部特征以提升语音分离性能

摘要

双路径(Dual-path)是语音分离模型(如Sepformer)中一种流行的架构,其将长序列分割为重叠的块,分别在块内(intra-block)和块间(inter-block)进行建模,以捕捉块内局部特征与块间全局关系。然而,研究发现,构成双路径模型一半参数量的块间模块对性能提升贡献甚微。为此,我们提出单路径全局调制(Single-Path Global Modulation, SPGM)模块,用于替代原有的块间模块。SPGM模块名称源于其结构设计:由一个无参数的全局池化模块,后接一个仅占模型总参数量2%的调制模块构成。该设计使模型中所有Transformer层均可专注于局部特征建模,从而实现全模型的单路径结构。在WSJ0-2Mix数据集上,SPGM达到22.1 dB的SI-SDRi性能,在Libri2Mix数据集上达到20.4 dB,分别较Sepformer提升0.5 dB和0.3 dB,且在性能上达到甚至超越近期最先进模型水平,同时参数量最多可减少至其1/8。相关模型与权重已发布于Hugging Face:huggingface.co/yipjiaqi/spgm。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供