17 天前

基于U-Net的相位感知单阶段语音去噪与去混响

Hyeong-Seok Choi, Hoon Heo, Jie Hwan Lee, Kyogu Lee
基于U-Net的相位感知单阶段语音去噪与去混响
摘要

在本工作中,我们提出了一种单阶段框架来解决语音去噪与去混响问题。尽管去噪与去混响通常被视为两个独立且具有挑战性的任务,因而常规方法往往需要分别设计两个处理模块,但我们证明了一个深度神经网络可被共享以同时解决这两类问题。为此,我们提出了一种新型掩码方法——相位感知Beta-Sigmoid掩码(Phase-aware Beta-sigmoid Mask, PHM),该方法通过在复数域中利用混合信号、目标信号与残差信号三者之间的三角不等式关系,复用估计的幅值信息来推断干净语音的相位。我们引入两个PHM分别处理直达成分与混响成分,从而在推理阶段实现对增强语音中混响比例的灵活控制。此外,为提升语音增强性能,我们提出了一种新的时域损失函数,并在实验中验证其相较于复数域中的均方误差(MSE)损失具有更优的性能表现。最后,为实现实时推理,我们提出了一种针对U-Net结构的优化策略,相较原始版本显著降低了高达88.9%的计算开销。