17 天前

Auffusion:利用扩散模型与大语言模型的力量实现文本到音频生成

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
Auffusion:利用扩散模型与大语言模型的力量实现文本到音频生成
摘要

近年来,扩散模型与大规模语言模型(LLMs)的快速发展显著推动了AIGC(人工智能生成内容)领域的发展。文本到音频(Text-to-Audio, TTA)作为AIGC中一个新兴的应用方向,旨在根据自然语言提示生成相应的音频内容,正受到越来越多的关注。然而,现有的TTA研究在生成质量以及文本与音频之间的对齐精度方面仍面临挑战,尤其是在处理复杂文本输入时尤为明显。受当前先进文本到图像(Text-to-Image, T2I)扩散模型的启发,我们提出了Auffusion——一种将T2I模型架构适配至TTA任务的新型系统。该系统通过有效利用T2I模型固有的生成能力与精准的跨模态对齐特性,显著提升了音频生成效果。客观与主观评估结果表明,Auffusion在数据和计算资源受限的情况下,仍显著优于以往的TTA方法。此外,已有T2I研究指出编码器选择对跨模态对齐(如细粒度细节与对象绑定)具有显著影响,但此类系统性评估在以往的TTA研究中仍较为缺乏。为此,我们通过全面的消融实验与创新性的交叉注意力图可视化分析,深入评估了TTA任务中的文本-音频对齐能力。研究结果表明,Auffusion在生成与文本描述高度一致的音频方面展现出卓越性能,并在多个相关任务中得到进一步验证,包括音频风格迁移、音频补全(inpainting)及其他音频编辑操作。我们的代码实现与演示项目已公开,访问地址为:https://auffusion.github.io。