6 个月前

音频和语音处理

多任务学习

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

摘要

尽管语音增强（Speech Enhancement, SE）研究取得了快速进展，但在强噪声及存在干扰说话人环境下提升目标语音质量仍是极具挑战性的问题。本文将近期提出的频带分割循环神经网络（Band-Split RNN, BSRNN）模型的应用范围拓展至全频带语音增强（Full-band SE）与个性化语音增强（Personalized SE, PSE）任务。为缓解全频带语音中高频分量不稳定带来的影响，本文分别对低频子带和高频子带采用双向与单向的频带级建模策略。针对PSE任务，我们在BSRNN框架中引入说话人注册（speaker enrollment）模块，以有效利用目标说话人的先验信息。此外，为提升语音的感知质量，本文还采用MetricGAN判别器（MetricGAN Discriminator, MGD）与多分辨率频谱图判别器（Multi-Resolution Spectrogram Discriminator, MRSD）进行联合优化。实验结果表明，所提系统在多项指标上均优于多个顶尖语音增强系统，在DNS-2020测试集上取得了当前最优（State-of-the-Art, SOTA）性能，并在DNS-2023挑战赛中位列前三名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

摘要

尽管语音增强（Speech Enhancement, SE）研究取得了快速进展，但在强噪声及存在干扰说话人环境下提升目标语音质量仍是极具挑战性的问题。本文将近期提出的频带分割循环神经网络（Band-Split RNN, BSRNN）模型的应用范围拓展至全频带语音增强（Full-band SE）与个性化语音增强（Personalized SE, PSE）任务。为缓解全频带语音中高频分量不稳定带来的影响，本文分别对低频子带和高频子带采用双向与单向的频带级建模策略。针对PSE任务，我们在BSRNN框架中引入说话人注册（speaker enrollment）模块，以有效利用目标说话人的先验信息。此外，为提升语音的感知质量，本文还采用MetricGAN判别器（MetricGAN Discriminator, MGD）与多分辨率频谱图判别器（Multi-Resolution Spectrogram Discriminator, MRSD）进行联合优化。实验结果表明，所提系统在多项指标上均优于多个顶尖语音增强系统，在DNS-2020测试集上取得了当前最优（State-of-the-Art, SOTA）性能，并在DNS-2023挑战赛中位列前三名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供