HyperAIHyperAI

Command Palette

Search for a command to run...

演奏音乐的FLUX

Zhengcong Fei Mingyuan Fan Changqian Yu Junshi Huang

摘要

本文探讨了一种基于扩散模型的修正流(rectified flow)Transformer在文本到音乐生成中的简单扩展,命名为FluxMusic。通常,结合先进的Flux模型设计,我们将该模型转换到梅尔频谱的潜在VAE空间中。这一过程首先对双通道的文本-音乐流应用一系列独立注意力机制,随后通过堆叠单个音乐流来进行去噪补丁预测。我们采用了多个预训练的文本编码器,以充分捕捉字幕的语义信息并提高推理灵活性。在此过程中,粗粒度的文本信息与时间步嵌入共同用于调制机制,而细粒度的文本细节则与音乐补丁序列拼接作为输入。通过深入研究,我们证明了采用优化架构进行修正流训练在文本到音乐任务上显著优于已有的扩散方法,这一点由多种自动评估指标和人类偏好评价所证实。我们的实验数据、代码和模型权重已在以下网址公开提供:https://github.com/feizc/FluxMusic


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供