17 天前

FullSubNet+:基于复谱图的通道注意力FullSubNet语音增强

Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng
FullSubNet+:基于复谱图的通道注意力FullSubNet语音增强
摘要

此前提出的 FullSubNet 在深度噪声抑制(Deep Noise Suppression, DNS)挑战赛中取得了卓越性能,引起了广泛关注。然而,该方法仍存在输入输出不匹配以及频带处理粗略等问题。本文提出了一种扩展的单通道实时语音增强框架——FullSubNet+,并在以下几个方面实现了显著改进。首先,我们设计了一种轻量级的多尺度时敏通道注意力模块(Multi-scale Time-sensitive Channel Attention, MulCA),该模块结合多尺度卷积与通道注意力机制,有助于网络聚焦于更具区分性的频带以实现更优的降噪效果。其次,为充分挖掘含噪语音中的相位信息,我们的模型将幅度谱、实部谱和虚部谱三者全部作为输入。此外,通过用堆叠的时序卷积网络(Temporal Convolutional Network, TCN)模块替代原始全频带模型中的长短期记忆(LSTM)层,我们构建了一个更为高效的全频带特征提取模块,称为全频带提取器(full-band extractor)。在 DNS 挑战赛数据集上的实验结果表明,所提出的 FullSubNet+ 具有卓越的性能,达到了当前最先进的(State-of-the-Art, SOTA)水平,并显著优于现有的各类语音增强方法。