6 个月前

音频和语音处理

卷积神经网络

Shengkui Zhao Trung Hieu Nguyen Bin Ma

摘要

深度复数U-Net结构与卷积循环网络（Convolutional Recurrent Network, CRN）在单通道语音增强任务中取得了当前最优的性能。这两种结构均为带有跳跃连接的编码器-解码器架构，其性能高度依赖于复数卷积层的表征能力。本文提出一种复数卷积块注意力模块（Complex Convolutional Block Attention Module, CCBAM），通过构建更具信息量的特征来增强复数卷积层的表征能力。CCBAM是一种轻量化且通用的模块，可无缝集成至任意复数卷积层中。我们将CCBAM分别与深度复数U-Net和CRN结合，显著提升了二者在语音增强任务中的性能表现。此外，本文进一步提出一种混合损失函数，用于在时频域（Time-Frequency, TF）和时域两个空间中联合优化复数模型。通过融合CCBAM与混合损失函数，我们构建了一种新的端到端（End-to-End, E2E）复数语音增强框架。消融实验与客观评估结果表明，所提出方法在性能上具有显著优势（项目开源地址：https://github.com/modelscope/ClearerVoice-Studio）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Shengkui Zhao Trung Hieu Nguyen Bin Ma

摘要

深度复数U-Net结构与卷积循环网络（Convolutional Recurrent Network, CRN）在单通道语音增强任务中取得了当前最优的性能。这两种结构均为带有跳跃连接的编码器-解码器架构，其性能高度依赖于复数卷积层的表征能力。本文提出一种复数卷积块注意力模块（Complex Convolutional Block Attention Module, CCBAM），通过构建更具信息量的特征来增强复数卷积层的表征能力。CCBAM是一种轻量化且通用的模块，可无缝集成至任意复数卷积层中。我们将CCBAM分别与深度复数U-Net和CRN结合，显著提升了二者在语音增强任务中的性能表现。此外，本文进一步提出一种混合损失函数，用于在时频域（Time-Frequency, TF）和时域两个空间中联合优化复数模型。通过融合CCBAM与混合损失函数，我们构建了一种新的端到端（End-to-End, E2E）复数语音增强框架。消融实验与客观评估结果表明，所提出方法在性能上具有显著优势（项目开源地址：https://github.com/modelscope/ClearerVoice-Studio）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供