8 个月前

摘要

相位信息对语音感知质量和可懂度有显著影响。然而，现有的语音增强方法在显式相位估计方面遇到了限制，这是由于相位的非结构性特征和包裹特性导致的，从而成为提高增强语音质量的瓶颈。为了解决上述问题，本文提出了一种新的语音增强网络——MP-SENet，该网络能够并行显式增强幅度谱和相位谱。所提出的MP-SENet包括一个嵌入了Transformer的编码器-解码器架构。编码器的目标是将输入的失真幅度谱和相位谱编码为时频表示，这些表示进一步被送入时频Transformer中，以交替捕捉时间和频率依赖关系。解码器由幅度掩模解码器和相位解码器组成，分别通过引入幅度掩模架构和相位并行估计架构来直接增强幅度谱和包裹相位谱。多级损失函数被定义在幅度谱、包裹相位谱和短时复数谱上，用于联合训练MP-SENet模型。此外，还采用了度量判别器来补偿这些损失与人类听觉感知之间的不完全相关性。实验结果表明，所提出的MP-SENet在多个语音增强任务中（包括语音去噪、去混响和带宽扩展）达到了最先进的性能。与现有的相位感知语音增强方法相比，它通过显式相位估计进一步减轻了幅度和相位之间的补偿效应，提升了增强语音的感知质量。

源 PDF