6 个月前

摘要

去噪扩散概率模型（Denoising Diffusion Probabilistic Models, DDPMs）在近期的诸多生成任务中取得了领先性能。然而，其固有的迭代采样过程计算开销较大，限制了其在语音合成领域的应用。本文提出FastDiff，一种面向高质量语音合成的快速条件扩散模型。FastDiff采用一系列具有时序感知能力、感受野模式多样化的可变位置卷积，高效建模长时序依赖关系，并结合自适应条件机制。同时，引入噪声调度预测器，在不牺牲生成质量的前提下显著减少采样步骤。基于FastDiff，我们设计了一种端到端的文语合成系统——FastDiff-TTS，可直接生成高保真语音波形，无需任何中间特征（如梅尔频谱图）。实验结果表明，FastDiff在语音质量上达到当前最优水平，语音样本的主观评分（MOS）高达4.28。此外，FastDiff在V100 GPU上实现了比实时速度快58倍的采样速率，首次使扩散模型具备在语音合成部署中的实际可行性。我们进一步验证了FastDiff在未见说话人梅尔频谱图重建任务中的良好泛化能力，且FastDiff-TTS在端到端文语合成任务中优于现有各类竞争方法。音频样例可访问：\url{https://FastDiff.github.io/}。

源 PDF