3 个月前

FullSubNet:一种用于实时单通道语音增强的全带与子带融合模型

Xiang Hao, Xiangdong Su, Radu Horaud, Xiaofei Li
FullSubNet:一种用于实时单通道语音增强的全带与子带融合模型
摘要

本文提出了一种全频段与子频段融合模型,命名为FullSubNet,用于单通道实时语音增强。其中,“全频段”与“子频段”分别指输入全频段和子频段噪声谱特征、输出全频段和子频段语音目标的模型。子频段模型对每个频率独立处理,其输入包含目标频率及其若干上下文频率,输出为对应频率的干净语音目标预测值。这两种模型具有不同的特性:全频段模型能够捕捉全局谱上下文信息以及远距离跨频段依赖关系,但难以建模信号的平稳性并关注局部谱模式;而子频段模型则恰好相反。在所提出的FullSubNet中,我们依次连接一个纯全频段模型与一个纯子频段模型,并通过实用的联合训练策略,有效融合两类模型的优势。我们在DNS挑战赛(INTERSPEECH 2020)数据集上进行了实验以评估该方法。实验结果表明,全频段与子频段信息具有互补性,FullSubNet能够高效融合二者信息。此外,FullSubNet的性能也优于DNS挑战赛(INTERSPEECH 2020)中排名前列的现有方法。