HyperAIHyperAI

Command Palette

Search for a command to run...

神经声码器是语音超分辨率所需的一切

Haohe Liu Woosung Choi Xubo Liu Qiuqiang Kong Qiao Tian DeLiang Wang

摘要

语音超分辨率(SR)是指通过生成高频成分来提高语音采样率的任务。现有的语音SR方法通常在受限的实验环境中进行训练,例如固定的上采样比例。这些严格的限制可能会导致在实际应用中遇到不匹配情况时,模型的泛化能力较差。本文提出了一种基于神经声码器的语音超分辨率方法(NVSR),该方法能够处理多种输入分辨率和上采样比例。NVSR由梅尔带宽扩展模块、神经声码器模块和后处理模块组成。我们提出的系统在VCTK多说话人基准测试中取得了最先进的结果。在44.1 kHz的目标分辨率下,NVSR在对数谱距离指标上的表现分别比WSRGlow和Nu-wave高出8%和37%,并且感知质量显著优于后者。此外,我们还通过使用简单的复制填充方法进行梅尔带宽扩展,证明了预训练声码器中的先验知识对于语音SR至关重要。样本可以在以下链接获取:https://haoheliu.github.io/nvsr


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供