17 天前

通道注意力密集U-Net用于多通道语音增强

Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh Krishnaswamy
通道注意力密集U-Net用于多通道语音增强
摘要

近年来,监督式深度学习在语音增强领域受到广泛关注。当前最先进的深度学习方法通过学习一个比率掩码或二值掩码,在时频域对混合信号进行处理,从而还原出干净语音。尽管在单通道场景下表现优异,这些方法在多通道场景下的性能仍显不足,主要原因在于:a)未能充分挖掘可用的空间信息;b)仍将深度网络架构视为“黑箱”,这可能并不适用于多通道音频处理任务。本文针对上述问题,提出两项改进:a)采用复数比率掩码(complex ratio masking)而非仅对谱图幅度进行掩码,以更完整地保留相位信息;b)更重要的是,在深度网络架构中引入通道注意力机制(channel-attention mechanism),以模拟波束成形(beamforming)的效果。为此,我们提出了一种名为通道注意力密集U-Net(Channel-Attention Dense U-Net)的新型网络结构,该结构在每一层的特征图上递归地应用通道注意力单元,使网络能够实现非线性的波束成形。实验结果表明,该方法在CHiME-3数据集上的性能显著优于现有最先进方法。