2 个月前

神经声码器是语音超分辨率所需的一切

Liu, Haohe ; Choi, Woosung ; Liu, Xubo ; Kong, Qiuqiang ; Tian, Qiao ; Wang, DeLiang
神经声码器是语音超分辨率所需的一切
摘要

语音超分辨率(SR)是指通过生成高频成分来提高语音采样率的任务。现有的语音SR方法通常在受限的实验环境中进行训练,例如固定的上采样比例。这些严格的限制可能会导致在实际应用中遇到不匹配情况时,模型的泛化能力较差。本文提出了一种基于神经声码器的语音超分辨率方法(NVSR),该方法能够处理多种输入分辨率和上采样比例。NVSR由梅尔带宽扩展模块、神经声码器模块和后处理模块组成。我们提出的系统在VCTK多说话人基准测试中取得了最先进的结果。在44.1 kHz的目标分辨率下,NVSR在对数谱距离指标上的表现分别比WSRGlow和Nu-wave高出8%和37%,并且感知质量显著优于后者。此外,我们还通过使用简单的复制填充方法进行梅尔带宽扩展,证明了预训练声码器中的先验知识对于语音SR至关重要。样本可以在以下链接获取:https://haoheliu.github.io/nvsr。

神经声码器是语音超分辨率所需的一切 | 最新论文 | HyperAI超神经