17 天前

单耳语音增强:基于复数卷积块注意力模块与联合时频损失函数

Shengkui Zhao, Trung Hieu Nguyen, Bin Ma
单耳语音增强:基于复数卷积块注意力模块与联合时频损失函数
摘要

深度复数U-Net结构与卷积循环网络(Convolutional Recurrent Network, CRN)在单通道语音增强任务中取得了当前最优的性能。这两种结构均为带有跳跃连接的编码器-解码器架构,其性能高度依赖于复数卷积层的表征能力。本文提出一种复数卷积块注意力模块(Complex Convolutional Block Attention Module, CCBAM),通过构建更具信息量的特征来增强复数卷积层的表征能力。CCBAM是一种轻量化且通用的模块,可无缝集成至任意复数卷积层中。我们将CCBAM分别与深度复数U-Net和CRN结合,显著提升了二者在语音增强任务中的性能表现。此外,本文进一步提出一种混合损失函数,用于在时频域(Time-Frequency, TF)和时域两个空间中联合优化复数模型。通过融合CCBAM与混合损失函数,我们构建了一种新的端到端(End-to-End, E2E)复数语音增强框架。消融实验与客观评估结果表明,所提出方法在性能上具有显著优势(项目开源地址:https://github.com/modelscope/ClearerVoice-Studio)。