
摘要
近年来,基于多种分布外(out-of-distribution)场景的通用波形生成任务受到广泛关注。尽管基于生成对抗网络(GAN)的方法在快速波形生成方面展现出显著优势,但其在训练-推理不匹配场景(如两阶段文本到语音合成)中表现脆弱。与此同时,基于扩散模型(diffusion-based)的方法在其他领域已展现出强大的生成能力,但由于在波形生成任务中推理速度较慢,尚未受到足够关注。此外,目前尚缺乏一种生成架构,能够显式地解耦高分辨率波形信号中的自然周期性特征。本文提出了一种新型通用波形生成模型——PeriodWave。首先,我们设计了一种周期感知的流匹配估计器(period-aware flow matching estimator),能够在向量场估计过程中有效捕捉波形信号的周期性特征。此外,我们引入了多周期估计器(multi-period estimator),通过避免周期间的重叠,以分别建模波形信号的不同周期性成分。尽管增加周期数量可显著提升模型性能,但会带来更高的计算开销。为缓解这一问题,我们进一步提出一种单周期条件下的通用估计器(single period-conditional universal estimator),支持按周期并行的批处理前向推理,显著提升生成效率。同时,我们采用离散小波变换(discrete wavelet transform),在无损前提下对波形信号的频域信息进行解耦,以增强对高频成分的建模能力;并引入FreeU机制,有效抑制波形生成过程中的高频噪声。实验结果表明,我们的模型在梅尔频谱图重建与文本到语音合成任务中均显著优于现有方法。所有源代码将公开于:https://github.com/sh-lee-prml/PeriodWave。