17 天前

基于Mamba的语音增强方法研究

Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao
基于Mamba的语音增强方法研究
摘要

本研究旨在探索一种可扩展的状态空间模型(State-Space Model, SSM)——Mamba,用于语音增强(Speech Enhancement, SE)任务。我们基于Mamba构建了一个回归模型,用以表征语音信号,并在此基础上设计了一种新型语音增强系统,命名为SEMamba。通过将Mamba作为基础与先进语音增强系统的核心模型,并结合信号级距离度量与面向度量的损失函数,我们系统地研究了Mamba的特性。实验结果表明,SEMamba表现优异,在VoiceBank-DEMAND数据集上取得了3.55的PESQ得分。当与感知对比拉伸(perceptual contrast stretching)技术相结合时,所提出的SEMamba进一步实现了新的最优性能,PESQ得分达到3.69,刷新了该任务的当前最优水平。