17 天前

交互式语音与噪声建模在语音增强中的应用

Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu
交互式语音与噪声建模在语音增强中的应用
摘要

语音增强之所以具有挑战性,主要源于背景噪声类型的多样性。现有的大多数方法主要聚焦于建模语音信号本身,而忽视了对噪声的建模。本文提出一种新颖的双分支卷积神经网络架构——SN-Net,旨在同时建模语音与噪声。在SN-Net中,两个分支分别负责预测语音成分与噪声成分。与传统方法仅在输出层进行信息融合不同,本方法在两个分支之间的多个中间特征域引入交互模块,实现双向特征交互,从而相互促进。这种交互机制能够利用一个分支所学习到的特征来抑制另一个分支中的不利成分,并恢复其缺失部分,进而显著提升两者的区分能力。此外,本文还设计了一种名为“残差-卷积-注意力”(Residual-Convolution-and-Attention, RA)的特征提取模块,用于捕捉语音与噪声在时序与频域维度上的潜在相关性。在多个公开数据集上的实验结果表明,交互模块在联合建模过程中起到了关键作用,SN-Net在各项评估指标上均显著优于当前最先进的方法。同时,该模型在说话人分离任务中也展现出优异的性能。