
摘要
近年来,神经声码器(neural vocoding)的发展主要由时域(time-domain)运行的生成对抗网络(Generative Adversarial Networks, GANs)推动。尽管该方法在音质表现上具有显著效果,但其忽略了时频表示所蕴含的归纳偏置(inductive bias),导致需要冗余且计算成本高昂的上采样操作。相比之下,基于傅里叶变换的时频表示更具吸引力,其在建模上更贴近人类听觉感知,并可借助成熟的快速算法实现高效计算。然而,长期以来,直接重建复数谱图(complex-valued spectrograms)面临挑战,主要源于相位恢复(phase recovery)难题。为此,本研究提出Vocos——一种直接生成傅里叶频谱系数的新模型,有效填补了这一技术空白。实验评估表明,Vocos在音质方面达到了当前最先进的水平,同时在计算效率上实现显著提升,相较主流时域神经声码器方法,速度提升了一个数量级。相关源代码与模型权重已开源,地址为:https://github.com/gemelo-ai/vocos。