8 个月前

Chang Li* Ruoyu Wang* Lijuan Liu Jun Du† Yixuan Sun Zilu Guo Zhengrong Zhang Yuan Jiang Jianqing Gao Feng Ma

摘要

文本到音乐（Text-to-Music, TTM）生成技术，即将文本描述转换为音频，为多媒体创作开辟了创新途径。要在这一过程中实现高质量和多样性，需要大量的高质量数据，而这些数据在现有的数据集中往往稀缺。大多数开源数据集通常存在低质量波形和文本-音频一致性差等问题，阻碍了音乐生成模型的发展。为了解决这些挑战，我们提出了一种新的质量感知训练范式，用于从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外，通过利用音乐信号潜在空间的独特属性，我们对掩码扩散变换器（Masked Diffusion Transformer, MDT）模型进行了适应和实施，以应用于TTM任务，并展示了其在质量控制和增强音乐性方面的潜力。进一步地，我们引入了一种三阶段的字幕精炼方法来解决低质量字幕的问题。实验结果显示，在包括MusicCaps和Song-Describer Dataset在内的基准数据集上，该方法在客观和主观指标方面均达到了最先进的（State-of-the-Art, SOTA）性能。演示音频样本可在 https://qa-mdt.github.io/ 获取，代码和预训练检查点已开源发布于 https://github.com/ivcylc/OpenMusic。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Chang Li* Ruoyu Wang* Lijuan Liu Jun Du† Yixuan Sun Zilu Guo Zhengrong Zhang Yuan Jiang Jianqing Gao Feng Ma

摘要

文本到音乐（Text-to-Music, TTM）生成技术，即将文本描述转换为音频，为多媒体创作开辟了创新途径。要在这一过程中实现高质量和多样性，需要大量的高质量数据，而这些数据在现有的数据集中往往稀缺。大多数开源数据集通常存在低质量波形和文本-音频一致性差等问题，阻碍了音乐生成模型的发展。为了解决这些挑战，我们提出了一种新的质量感知训练范式，用于从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外，通过利用音乐信号潜在空间的独特属性，我们对掩码扩散变换器（Masked Diffusion Transformer, MDT）模型进行了适应和实施，以应用于TTM任务，并展示了其在质量控制和增强音乐性方面的潜力。进一步地，我们引入了一种三阶段的字幕精炼方法来解决低质量字幕的问题。实验结果显示，在包括MusicCaps和Song-Describer Dataset在内的基准数据集上，该方法在客观和主观指标方面均达到了最先进的（State-of-the-Art, SOTA）性能。演示音频样本可在 https://qa-mdt.github.io/ 获取，代码和预训练检查点已开源发布于 https://github.com/ivcylc/OpenMusic。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供