HyperAI超神经

通过对抗式后训练实现快速文本生成音频

Zachary Novack, Zach Evans, Zack Zukowski
发布日期: 5/15/2025
通过对抗式后训练实现快速文本生成音频
摘要

尽管文本生成音频(Text-to-Audio)系统的性能日益提升,但其推理速度仍然较慢,导致在许多创意应用场景中延迟问题难以接受。我们提出了对抗性相对-对比(Adversarial Relativistic-Contrastive,简称 ARC)后训练方法,这是首个非基于蒸馏的扩散/流模型对抗性加速算法。尽管以往的对抗性后训练方法在效果上难以与高成本的蒸馏方法相媲美,ARC 后训练却是一种简单高效的过程:(1)它将近期提出的相对性对抗框架扩展至扩散/流模型的后训练任务;(2)结合一种新颖的对比判别器目标函数,以增强模型对提示词的响应能力。我们将 ARC 后训练与多个对 Stable Audio Open 模型的优化结合,构建出一种模型,能够在 H100 上以约 75 毫秒生成约 12 秒、44.1kHz 立体声的音频,在移动端设备上也能生成约 7 秒音频。据我们所知,这是目前最快的文本生成音频模型。