
摘要
在本工作中,我们提出了CleanUNet,一种基于原始波形的因果语音去噪模型。该模型采用编码器-解码器架构,并结合多个自注意力模块以优化其瓶颈层表示,这一设计对于取得优异性能至关重要。模型通过在波形和多分辨率谱图上定义的一组损失函数进行优化。在多种客观与主观评估指标下,所提出的方法在去噪语音质量方面均优于当前最先进的模型。相关代码与模型已开源,地址为:https://github.com/nvidia/cleanunet。

在本工作中,我们提出了CleanUNet,一种基于原始波形的因果语音去噪模型。该模型采用编码器-解码器架构,并结合多个自注意力模块以优化其瓶颈层表示,这一设计对于取得优异性能至关重要。模型通过在波形和多分辨率谱图上定义的一组损失函数进行优化。在多种客观与主观评估指标下,所提出的方法在去噪语音质量方面均优于当前最先进的模型。相关代码与模型已开源,地址为:https://github.com/nvidia/cleanunet。