17 天前

基于短时离散余弦变换的实时单声道语音增强

{Kaichi Ma, Haixin Guan, Fei Gao, Qinglong Li}
基于短时离散余弦变换的实时单声道语音增强
摘要

基于深度学习的语音增强算法在语音可懂度和感知质量方面已取得显著提升。许多现有方法侧重于增强幅度谱,同时利用混合信号的相位进行语音重建。然而,纯净语音的相位信息至关重要且难以准确预测,因此这类方法的性能受到限制。尽管部分研究尝试直接或间接估计相位谱,但效果仍不理想。近年来,一些研究提出了复数域建模方法,并取得了当前最优的性能,例如深度复数卷积循环网络(DCCRN)。然而,这类模型的计算复杂度较高。为降低模型复杂度并进一步提升性能,本文提出一种新方法,采用离散余弦变换(Discrete Cosine Transform, DCT)作为输入,构建了深度余弦变换卷积循环网络(Deep Cosine Transform Convolutional Recurrent Network, DCTCRN)。实验结果表明,DCTCRN在客观与主观评价指标上均达到了当前最优水平。相较于原始噪声混合信号,经所提模型处理后,平均意见得分(MOS)提升了0.46(从2.86提升至3.32),且模型参数量仅为286万,显著降低了计算开销。