2 个月前

Make-An-Audio 2:时间增强型文本到音频生成

Jiawei Huang; Yi Ren; Rongjie Huang; Dongchao Yang; Zhenhui Ye; Chen Zhang; Jinglin Liu; Xiang Yin; Zejun Ma; Zhou Zhao
Make-An-Audio 2:时间增强型文本到音频生成
摘要

大型扩散模型在文本到音频(T2A)合成任务中取得了成功,但它们通常会遇到一些常见的问题,如语义错位和时间一致性差,这主要是由于自然语言理解能力有限和数据稀缺所致。此外,广泛应用于T2A工作的二维空间结构在生成可变长度的音频样本时会导致音频质量不佳,因为这些结构未能充分优先考虑时间信息。为了解决这些问题,我们提出了Make-an-Audio 2,这是一种基于潜在扩散的T2A方法,继承了Make-an-Audio的成功经验。我们的方法包括几种技术来改善语义对齐和时间一致性:首先,我们使用预训练的大规模语言模型(LLMs)将文本解析为结构化的<事件 & 顺序>对,以更好地捕捉时间信息。我们还引入了另一个结构化文本编码器,以帮助在扩散去噪过程中学习语义对齐。为了提高可变长度生成的性能并增强时间信息提取,我们设计了一种基于前馈Transformer的扩散去噪器。最后,我们利用大规模语言模型将大量音频标签数据转换为音频-文本数据集,以缓解时间数据稀缺的问题。广泛的实验表明,我们的方法在客观和主观指标上均优于基线模型,并在时间信息理解、语义一致性和音质方面取得了显著提升。