11 天前

基于对抗性流匹配优化的高保真波形生成加速方法

Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
基于对抗性流匹配优化的高保真波形生成加速方法
摘要

本文提出了一种名为PeriodWave-Turbo的高保真、高效率波形生成模型,该模型通过对抗性流匹配优化实现。近年来,条件流匹配(Conditional Flow Matching, CFM)生成模型在波形生成任务中取得了成功应用,其训练过程仅需单一向量场估计目标。尽管此类模型能够生成高保真度的波形信号,但其所需的常微分方程(ODE)求解步数显著多于基于生成对抗网络(GAN)的模型——后者仅需单步生成即可完成。此外,由于向量场估计过程中存在噪声,生成样本往往缺乏高频信息,难以保证高频成分的准确还原。为克服这一局限性,本文通过引入固定步长生成器的改进机制,对预训练的CFM生成模型进行增强。利用重建损失与对抗性反馈机制,显著加速了高保真波形的生成过程。通过对抗性流匹配优化,仅需1,000步微调即可在多项客观评估指标上达到当前最优性能。同时,推理速度大幅降低,从原先的16步缩减至2步或4步。此外,通过将PeriodWave的主干网络参数量从2900万扩展至7000万,进一步提升了模型的泛化能力。在LibriTTS数据集上,PeriodWave-Turbo实现了前所未有的性能表现,语音质量的感知评估得分(PESQ)达到4.454。相关音频样本、源代码及模型检查点将公开于GitHub:https://github.com/sh-lee-prml/PeriodWave。

基于对抗性流匹配优化的高保真波形生成加速方法 | 最新论文 | HyperAI超神经