6 个月前

音频和语音处理

卷积神经网络

Xiang Hao Xiangdong Su Radu Horaud Xiaofei Li

摘要

本文提出了一种全频段与子频段融合模型，命名为FullSubNet，用于单通道实时语音增强。其中，“全频段”与“子频段”分别指输入全频段和子频段噪声谱特征、输出全频段和子频段语音目标的模型。子频段模型对每个频率独立处理，其输入包含目标频率及其若干上下文频率，输出为对应频率的干净语音目标预测值。这两种模型具有不同的特性：全频段模型能够捕捉全局谱上下文信息以及远距离跨频段依赖关系，但难以建模信号的平稳性并关注局部谱模式；而子频段模型则恰好相反。在所提出的FullSubNet中，我们依次连接一个纯全频段模型与一个纯子频段模型，并通过实用的联合训练策略，有效融合两类模型的优势。我们在DNS挑战赛（INTERSPEECH 2020）数据集上进行了实验以评估该方法。实验结果表明，全频段与子频段信息具有互补性，FullSubNet能够高效融合二者信息。此外，FullSubNet的性能也优于DNS挑战赛（INTERSPEECH 2020）中排名前列的现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Xiang Hao Xiangdong Su Radu Horaud Xiaofei Li

摘要

本文提出了一种全频段与子频段融合模型，命名为FullSubNet，用于单通道实时语音增强。其中，“全频段”与“子频段”分别指输入全频段和子频段噪声谱特征、输出全频段和子频段语音目标的模型。子频段模型对每个频率独立处理，其输入包含目标频率及其若干上下文频率，输出为对应频率的干净语音目标预测值。这两种模型具有不同的特性：全频段模型能够捕捉全局谱上下文信息以及远距离跨频段依赖关系，但难以建模信号的平稳性并关注局部谱模式；而子频段模型则恰好相反。在所提出的FullSubNet中，我们依次连接一个纯全频段模型与一个纯子频段模型，并通过实用的联合训练策略，有效融合两类模型的优势。我们在DNS挑战赛（INTERSPEECH 2020）数据集上进行了实验以评估该方法。实验结果表明，全频段与子频段信息具有互补性，FullSubNet能够高效融合二者信息。此外，FullSubNet的性能也优于DNS挑战赛（INTERSPEECH 2020）中排名前列的现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供