2 个月前

CMGAN:基于Conformer的单通道语音增强度量-GAN

Abdulatif, Sherif ; Cao, Ruizhe ; Yang, Bin
CMGAN:基于Conformer的单通道语音增强度量-GAN
摘要

在本研究中,我们进一步开发了基于构象器的度量生成对抗网络(CMGAN)模型,用于时频(TF)域的语音增强(SE)。本文在我们之前工作的基础上进行了深入探讨,通过广泛的消融实验对模型输入和架构设计选择进行了详细分析。我们严格测试了模型对未见过的噪声类型和失真的泛化能力,并通过DNS-MOS测量和听觉测试对其性能进行了验证。除了专注于语音去噪任务外,我们将这项工作扩展到解决去混响和超分辨率任务。这需要探索多种架构变化,特别是度量判别器得分和掩码技术。需要特别指出的是,这是最早尝试复杂TF域超分辨率的工作之一。我们的研究结果表明,CMGAN在三个主要的语音增强任务——去噪、去混响和超分辨率中均优于现有的最先进方法。例如,在使用Voice Bank+DEMAND数据集进行的去噪任务中,CMGAN显著超越了先前模型的表现,达到了3.41的PESQ分数和11.10 dB的SSNR。音频样本和CMGAN实现代码已在线提供。

CMGAN:基于Conformer的单通道语音增强度量-GAN | 最新论文 | HyperAI超神经