11 天前
时空扩散模型中的交换注意力机制用于文本到视频生成
Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu

摘要
随着人工智能生成内容(AIGC)的迅猛发展,视频生成技术近年来受到广泛关注。基于文本指令生成视频面临诸多挑战,例如建模时空之间的复杂关系,以及高质量、大规模的文本-视频配对数据的匮乏。现有文本-视频数据集在内容质量与数据规模方面均存在局限,或未开源,难以供研究与应用使用。在模型设计方面,以往方法通常通过在预训练的文本到图像生成模型基础上引入时间维度的一维卷积或注意力模块来实现视频生成。然而,这类方法忽视了空间与时间信息的联合建模,不可避免地导致时间上的畸变以及文本与视频之间的语义错位。本文提出一种新颖的方法,旨在增强空间与时间感知之间的交互能力。具体而言,我们在三维窗口中引入一种交换式交叉注意力机制,交替地在空间块与时间块之间切换“查询”(query)角色,从而实现二者之间的相互增强与协同优化。此外,为充分释放模型在高质量视频生成方面的潜力,并推动该领域的发展,我们构建了一个大规模、开源的视频数据集——HD-VG-130M。该数据集包含来自开放领域的1.3亿组文本-视频配对样本,具备高清画质、宽屏格式且无水印,确保内容的高质量与可用性。同时,我们还提供了一个规模较小但经过更精细清洗的子集,进一步提升了数据质量,有助于模型实现更优的性能表现。实验结果的定量与定性分析表明,所提方法在帧级质量、时序一致性以及文本-视频对齐性方面均显著优于现有方法,优势明显,具有清晰的性能差距。