6 个月前

音频和语音处理

Hubert Siuzdak

摘要

近年来，神经声码器（neural vocoding）的发展主要由时域（time-domain）运行的生成对抗网络（Generative Adversarial Networks, GANs）推动。尽管该方法在音质表现上具有显著效果，但其忽略了时频表示所蕴含的归纳偏置（inductive bias），导致需要冗余且计算成本高昂的上采样操作。相比之下，基于傅里叶变换的时频表示更具吸引力，其在建模上更贴近人类听觉感知，并可借助成熟的快速算法实现高效计算。然而，长期以来，直接重建复数谱图（complex-valued spectrograms）面临挑战，主要源于相位恢复（phase recovery）难题。为此，本研究提出Vocos——一种直接生成傅里叶频谱系数的新模型，有效填补了这一技术空白。实验评估表明，Vocos在音质方面达到了当前最先进的水平，同时在计算效率上实现显著提升，相较主流时域神经声码器方法，速度提升了一个数量级。相关源代码与模型权重已开源，地址为：https://github.com/gemelo-ai/vocos。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Hubert Siuzdak

摘要

近年来，神经声码器（neural vocoding）的发展主要由时域（time-domain）运行的生成对抗网络（Generative Adversarial Networks, GANs）推动。尽管该方法在音质表现上具有显著效果，但其忽略了时频表示所蕴含的归纳偏置（inductive bias），导致需要冗余且计算成本高昂的上采样操作。相比之下，基于傅里叶变换的时频表示更具吸引力，其在建模上更贴近人类听觉感知，并可借助成熟的快速算法实现高效计算。然而，长期以来，直接重建复数谱图（complex-valued spectrograms）面临挑战，主要源于相位恢复（phase recovery）难题。为此，本研究提出Vocos——一种直接生成傅里叶频谱系数的新模型，有效填补了这一技术空白。实验评估表明，Vocos在音质方面达到了当前最先进的水平，同时在计算效率上实现显著提升，相较主流时域神经声码器方法，速度提升了一个数量级。相关源代码与模型权重已开源，地址为：https://github.com/gemelo-ai/vocos。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供