8 个月前

多模态表征

Sanjoy Chowdhury Sayan Nag K J Joseph Balaji Vasan Srinivasan Dinesh Manocha

摘要

音乐是一种普遍的语言，能够传达情感和感受。它构成了从电影到社交媒体帖子整个创意媒体领域的不可或缺部分。目前，大多数能够合成音乐的机器学习模型主要依赖于文本描述进行条件设定。受到音乐家不仅根据电影剧本创作音乐，还通过视觉化手段进行创作的启发，我们提出了MeLFusion模型，该模型可以有效地利用文本描述和相应图像中的线索来合成音乐。MeLFusion是一种文本到音乐的扩散模型，具有新颖的“视觉突触”（visual synapse），能够将视觉模态中的语义有效融入生成的音乐中。为了促进这一领域的研究，我们引入了一个新的数据集MeLBench，并提出了一种新的评估指标IMSM。我们的详尽实验评估表明，将视觉信息添加到音乐合成流程中显著提高了生成音乐的质量，无论是在客观还是主观评价方面，FAD分数相对提升了高达67.98%。我们希望这项工作能够引起对这一实用但相对未被充分探索的研究领域的关注。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Sanjoy Chowdhury Sayan Nag K J Joseph Balaji Vasan Srinivasan Dinesh Manocha

摘要

音乐是一种普遍的语言，能够传达情感和感受。它构成了从电影到社交媒体帖子整个创意媒体领域的不可或缺部分。目前，大多数能够合成音乐的机器学习模型主要依赖于文本描述进行条件设定。受到音乐家不仅根据电影剧本创作音乐，还通过视觉化手段进行创作的启发，我们提出了MeLFusion模型，该模型可以有效地利用文本描述和相应图像中的线索来合成音乐。MeLFusion是一种文本到音乐的扩散模型，具有新颖的“视觉突触”（visual synapse），能够将视觉模态中的语义有效融入生成的音乐中。为了促进这一领域的研究，我们引入了一个新的数据集MeLBench，并提出了一种新的评估指标IMSM。我们的详尽实验评估表明，将视觉信息添加到音乐合成流程中显著提高了生成音乐的质量，无论是在客观还是主观评价方面，FAD分数相对提升了高达67.98%。我们希望这项工作能够引起对这一实用但相对未被充分探索的研究领域的关注。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供