17 天前

DCCRN:面向相位感知的语音增强的深度复数卷积循环网络

Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie
DCCRN:面向相位感知的语音增强的深度复数卷积循环网络
摘要

语音增强技术得益于深度学习在语音可懂度和感知质量方面的显著进展。传统的时间-频率(TF)域方法通常采用简单的卷积神经网络(CNN)或循环神经网络(RNN),通过预测TF掩码或语音谱来实现增强。一些近期研究采用复数谱图(complex-valued spectrogram)作为训练目标,但在实数域网络中进行训练,分别预测幅度与相位分量,或实部与虚部。特别地,卷积循环网络(Convolution Recurrent Network, CRN)结合了卷积编码器-解码器(Convolutional Encoder-Decoder, CED)结构与长短期记忆网络(LSTM),已被证明在处理复数目标时具有显著优势。为更有效地训练复数目标,本文提出一种新型网络结构——深度复数卷积循环网络(Deep Complex Convolution Recurrent Network, DCCRN),其设计模拟了复数运算过程,使得CNN与RNN结构均可直接处理复数输入与输出。所提出的DCCRN模型在客观与主观评价指标上均表现出色,性能优于以往多数网络架构。在Interspeech 2020深度噪声抑制(DNS)挑战赛中,仅包含370万参数的DCCRN模型在实时性赛道上获得第一名,在非实时性赛道上位列第二,综合评分以平均意见分(Mean Opinion Score, MOS)领先。