6 个月前

摘要

在本工作中，我们提出了CleanUNet，一种基于原始波形的因果语音去噪模型。该模型采用编码器-解码器架构，并结合多个自注意力模块以优化其瓶颈层表示，这一设计对于取得优异性能至关重要。模型通过在波形和多分辨率谱图上定义的一组损失函数进行优化。在多种客观与主观评估指标下，所提出的方法在去噪语音质量方面均优于当前最先进的模型。相关代码与模型已开源，地址为：https://github.com/nvidia/cleanunet。

源 PDF