6 个月前

音频和语音处理

卷积神经网络

Jun Chen Zilin Wang Deyi Tuo Zhiyong Wu Shiyin Kang Helen Meng

摘要

此前提出的 FullSubNet 在深度噪声抑制（Deep Noise Suppression, DNS）挑战赛中取得了卓越性能，引起了广泛关注。然而，该方法仍存在输入输出不匹配以及频带处理粗略等问题。本文提出了一种扩展的单通道实时语音增强框架——FullSubNet+，并在以下几个方面实现了显著改进。首先，我们设计了一种轻量级的多尺度时敏通道注意力模块（Multi-scale Time-sensitive Channel Attention, MulCA），该模块结合多尺度卷积与通道注意力机制，有助于网络聚焦于更具区分性的频带以实现更优的降噪效果。其次，为充分挖掘含噪语音中的相位信息，我们的模型将幅度谱、实部谱和虚部谱三者全部作为输入。此外，通过用堆叠的时序卷积网络（Temporal Convolutional Network, TCN）模块替代原始全频带模型中的长短期记忆（LSTM）层，我们构建了一个更为高效的全频带特征提取模块，称为全频带提取器（full-band extractor）。在 DNS 挑战赛数据集上的实验结果表明，所提出的 FullSubNet+ 具有卓越的性能，达到了当前最先进的（State-of-the-Art, SOTA）水平，并显著优于现有的各类语音增强方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Jun Chen Zilin Wang Deyi Tuo Zhiyong Wu Shiyin Kang Helen Meng

摘要

此前提出的 FullSubNet 在深度噪声抑制（Deep Noise Suppression, DNS）挑战赛中取得了卓越性能，引起了广泛关注。然而，该方法仍存在输入输出不匹配以及频带处理粗略等问题。本文提出了一种扩展的单通道实时语音增强框架——FullSubNet+，并在以下几个方面实现了显著改进。首先，我们设计了一种轻量级的多尺度时敏通道注意力模块（Multi-scale Time-sensitive Channel Attention, MulCA），该模块结合多尺度卷积与通道注意力机制，有助于网络聚焦于更具区分性的频带以实现更优的降噪效果。其次，为充分挖掘含噪语音中的相位信息，我们的模型将幅度谱、实部谱和虚部谱三者全部作为输入。此外，通过用堆叠的时序卷积网络（Temporal Convolutional Network, TCN）模块替代原始全频带模型中的长短期记忆（LSTM）层，我们构建了一个更为高效的全频带特征提取模块，称为全频带提取器（full-band extractor）。在 DNS 挑战赛数据集上的实验结果表明，所提出的 FullSubNet+ 具有卓越的性能，达到了当前最先进的（State-of-the-Art, SOTA）水平，并显著优于现有的各类语音增强方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供