
摘要
本文探讨了一种基于扩散模型的修正流(rectified flow)Transformer在文本到音乐生成中的简单扩展,命名为FluxMusic。通常,结合先进的Flux模型设计,我们将该模型转换到梅尔频谱的潜在VAE空间中。这一过程首先对双通道的文本-音乐流应用一系列独立注意力机制,随后通过堆叠单个音乐流来进行去噪补丁预测。我们采用了多个预训练的文本编码器,以充分捕捉字幕的语义信息并提高推理灵活性。在此过程中,粗粒度的文本信息与时间步嵌入共同用于调制机制,而细粒度的文本细节则与音乐补丁序列拼接作为输入。通过深入研究,我们证明了采用优化架构进行修正流训练在文本到音乐任务上显著优于已有的扩散方法,这一点由多种自动评估指标和人类偏好评价所证实。我们的实验数据、代码和模型权重已在以下网址公开提供:https://github.com/feizc/FluxMusic。