2 个月前

MeLFusion:使用扩散模型从图像和语言线索合成音乐

Chowdhury, Sanjoy ; Nag, Sayan ; Joseph, K J ; Srinivasan, Balaji Vasan ; Manocha, Dinesh
MeLFusion:使用扩散模型从图像和语言线索合成音乐
摘要

音乐是一种普遍的语言,能够传达情感和感受。它构成了从电影到社交媒体帖子整个创意媒体领域的不可或缺部分。目前,大多数能够合成音乐的机器学习模型主要依赖于文本描述进行条件设定。受到音乐家不仅根据电影剧本创作音乐,还通过视觉化手段进行创作的启发,我们提出了MeLFusion模型,该模型可以有效地利用文本描述和相应图像中的线索来合成音乐。MeLFusion是一种文本到音乐的扩散模型,具有新颖的“视觉突触”(visual synapse),能够将视觉模态中的语义有效融入生成的音乐中。为了促进这一领域的研究,我们引入了一个新的数据集MeLBench,并提出了一种新的评估指标IMSM。我们的详尽实验评估表明,将视觉信息添加到音乐合成流程中显著提高了生成音乐的质量,无论是在客观还是主观评价方面,FAD分数相对提升了高达67.98%。我们希望这项工作能够引起对这一实用但相对未被充分探索的研究领域的关注。

MeLFusion:使用扩散模型从图像和语言线索合成音乐 | 最新论文 | HyperAI超神经