8 个月前

多模态表征

Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Ying Shan

摘要

文本到音乐生成（Text-to-Music Generation, T2M-Gen）面临的主要障碍之一是缺乏大规模公开可用的带有自然语言描述的音乐数据集。为了解决这一问题，我们提出了音乐理解LLaMA（Music Understanding LLaMA, MU-LLaMA），该模型能够回答与音乐相关的问题并为音乐文件生成描述。我们的模型利用了预训练的MERT模型提取的音频表示来提取音乐特征。然而，获取适合训练MU-LLaMA模型的数据集仍然具有挑战性，因为现有的公开可访问的音频问答数据集缺乏开放性音乐问答所需的深度。为了填补这一空白，我们提出了一种从现有音频描述数据集中生成问答对的方法，并引入了专为回答开放性音乐相关问题设计的MusicQA数据集。实验结果表明，基于我们设计的MusicQA数据集训练的MU-LLaMA模型在多种评估指标下均表现出色，在音乐问答和音乐描述生成方面均优于当前最先进的（State-of-the-Art, SOTA）模型，为T2M-Gen研究领域带来了有前景的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Ying Shan

摘要

文本到音乐生成（Text-to-Music Generation, T2M-Gen）面临的主要障碍之一是缺乏大规模公开可用的带有自然语言描述的音乐数据集。为了解决这一问题，我们提出了音乐理解LLaMA（Music Understanding LLaMA, MU-LLaMA），该模型能够回答与音乐相关的问题并为音乐文件生成描述。我们的模型利用了预训练的MERT模型提取的音频表示来提取音乐特征。然而，获取适合训练MU-LLaMA模型的数据集仍然具有挑战性，因为现有的公开可访问的音频问答数据集缺乏开放性音乐问答所需的深度。为了填补这一空白，我们提出了一种从现有音频描述数据集中生成问答对的方法，并引入了专为回答开放性音乐相关问题设计的MusicQA数据集。实验结果表明，基于我们设计的MusicQA数据集训练的MU-LLaMA模型在多种评估指标下均表现出色，在音乐问答和音乐描述生成方面均优于当前最先进的（State-of-the-Art, SOTA）模型，为T2M-Gen研究领域带来了有前景的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供