17 天前

SE-MelGAN —— 说话人无关的快速语音增强

Luka Chkhetiani, Levan Bejanidze
SE-MelGAN —— 说话人无关的快速语音增强
摘要

近年来,生成对抗网络(Generative Adversarial Networks, GANs)在语音合成领域取得了显著进展[3],[2],表明可通过可靠的方法训练GANs [8],从梅尔频谱(mel-spectrograms)生成高质量、连贯的波形。本文提出,可将MelGAN [3]在学习语音特征方面的鲁棒性直接迁移至语音增强与噪声抑制领域,且无需进行任何模型结构修改。所提出的方法在多说话人语音数据集上具有良好的泛化能力,能够在推理阶段稳健处理未见过的背景噪声。此外,我们发现,通过增大该方法的批量大小(batch size),不仅能够显著提升语音质量,还能更轻松地实现对多说话人数据集的泛化,并加速模型收敛。实验结果表明,该方法在两个关键指标上均优于此前最先进的GAN语音增强方法SEGAN [5]:1. 语音质量;2. 推理速度。所提方法在GPU上运行速度超过实时速度的100倍,在CPU上也超过实时速度的2倍,且无需任何硬件优化,其推理速度与MelGAN [3]保持一致。