2 个月前

QA-MDT:质量感知的掩码扩散变换器用于增强音乐生成

Li, Chang ; Wang, Ruoyu ; Liu, Lijuan ; Du, Jun ; Sun, Yixuan ; Guo, Zilu ; Zhang, Zhenrong ; Jiang, Yuan ; Gao, Jianqing ; Ma, Feng
QA-MDT:质量感知的掩码扩散变换器用于增强音乐生成
摘要

文本到音乐(Text-to-Music, TTM)生成技术,即将文本描述转换为音频,为多媒体创作开辟了创新途径。要在这一过程中实现高质量和多样性,需要大量的高质量数据,而这些数据在现有的数据集中往往稀缺。大多数开源数据集通常存在低质量波形和文本-音频一致性差等问题,阻碍了音乐生成模型的发展。为了解决这些挑战,我们提出了一种新的质量感知训练范式,用于从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外,通过利用音乐信号潜在空间的独特属性,我们对掩码扩散变换器(Masked Diffusion Transformer, MDT)模型进行了适应和实施,以应用于TTM任务,并展示了其在质量控制和增强音乐性方面的潜力。进一步地,我们引入了一种三阶段的字幕精炼方法来解决低质量字幕的问题。实验结果显示,在包括MusicCaps和Song-Describer Dataset在内的基准数据集上,该方法在客观和主观指标方面均达到了最先进的(State-of-the-Art, SOTA)性能。演示音频样本可在 https://qa-mdt.github.io/ 获取,代码和预训练检查点已开源发布于 https://github.com/ivcylc/OpenMusic。

QA-MDT:质量感知的掩码扩散变换器用于增强音乐生成 | 最新论文 | HyperAI超神经