12 天前

一致性TTA:通过一致性蒸馏加速基于扩散的文本到音频生成

Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi
一致性TTA:通过一致性蒸馏加速基于扩散的文本到音频生成
摘要

扩散模型在文本到音频(Text-to-Audio, TTA)生成任务中发挥着关键作用。然而,由于每次生成过程需要对底层去噪网络进行大量查询,导致推理速度缓慢。为解决这一瓶颈,我们提出 ConsistencyTTA 框架,该框架仅需一次非自回归网络查询即可完成生成,从而将 TTA 的推理速度提升数百倍。这一突破得益于我们提出的“CFG感知的潜在一致性模型”(CFG-aware latent consistency model),该模型将一致性生成过程迁移至潜在空间,并在模型训练中融入无分类器引导(Classifier-Free Guidance, CFG)。此外,与扩散模型不同,ConsistencyTTA 可以在闭合环路中利用音频空间内的文本感知评估指标(如 CLAP 分数)进行微调,进一步提升生成质量。在 AudioCaps 数据集上的客观与主观评估结果表明,相较于基于扩散模型的方法,ConsistencyTTA 在保持生成质量与多样性的前提下,将推理计算量降低了 400 倍。

一致性TTA:通过一致性蒸馏加速基于扩散的文本到音频生成 | 最新论文 | HyperAI超神经