自回归模型与流匹配模型:文本到音乐生成建模范式的比较研究
Tal, Or ; Kreuk, Felix ; Adi, Yossi
发布日期: 6/12/2025

摘要
近期在文本到音乐生成领域的进展已经使得模型能够合成高质量的音乐片段、完整的乐曲,甚至能够响应细微的控制信号,例如和弦进程。最先进的(SOTA)系统在许多方面存在显著差异,如训练数据集、建模范式和架构选择。这种多样性使得公平评估模型并确定哪些设计选择最影响性能变得复杂。虽然数据和架构等因素很重要,但本研究专门关注建模范式。我们进行了系统的实证分析,以隔离其影响,提供了关于相关权衡和新兴行为的见解,这些见解可以指导未来的文本到音乐生成系统。具体而言,我们比较了两种最常见的建模范式:自回归解码(Auto-Regressive decoding)和条件流匹配(Conditional Flow-Matching)。通过使用相同的训练数据集、训练配置和相似的基础架构从头开始训练所有模型,我们进行了受控比较。性能评估涵盖了多个维度,包括生成质量、对推理配置的鲁棒性、可扩展性、对文本和时间对齐条件的一致性以及音频修复形式的编辑能力。这项比较研究揭示了每种范式的独特优势和局限性,为未来在不断发展的文本到音乐生成领域中的架构和训练决策提供了具体的指导建议。音频样本示例可在以下链接获取:https://huggingface.co/spaces/ortal1602/ARvsFM