
摘要
本文提出了一种用于实时语音增强的双信号变换长短期记忆网络(Dual-Signal Transformation LSTM Network, DTLN),作为深度降噪挑战赛(Deep Noise Suppression Challenge, DNS-Challenge)的一部分。该方法采用级联网络结构,融合了短时傅里叶变换(Short-Time Fourier Transform, STFT)与可学习的分析-合成基函数,模型参数量不足一百万。网络在挑战赛组织方提供的500小时带噪语音数据上进行训练,具备实时处理能力(输入一帧,输出一帧),并取得了具有竞争力的性能表现。通过结合两种信号变换方式,DTLN能够稳健地从幅度谱中提取信息,并利用可学习特征基函数中的相位信息,从而提升语音重建质量。该方法在主观意见评分(Mean Opinion Score, MOS)上达到了当前最优水平,相较于DNS-Challenge基准模型提升了0.24分(绝对值)。