13 天前

用于文本到视频生成的分层时空解耦

Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
用于文本到视频生成的分层时空解耦
摘要

尽管扩散模型在生成逼真图像方面展现出强大的能力,但生成真实且多样化的视频仍处于起步阶段。其中一个关键原因在于,现有方法将视频的空间内容与时间动态紧密耦合,导致文本到视频生成(Text-to-Video, T2V)任务的复杂性显著增加。为此,本文提出HiGen,一种基于扩散模型的方法,通过从结构层面和内容层面两个角度解耦视频的空间与时间因素,从而提升生成性能。在结构层面,HiGen将T2V任务分解为两个步骤:空间推理与时间推理,并采用统一的去噪器实现。具体而言,在空间推理阶段,利用文本生成具有空间一致性的先验信息;随后在时间推理阶段,基于这些先验信息生成具有时间一致性的运动序列。在内容层面,HiGen从输入视频内容中提取两个细微的语义线索,分别表征运动变化与外观变化。这两个线索用于指导模型训练,从而实现灵活的内容变化,并显著提升生成视频的时间稳定性。通过这种解耦范式,HiGen有效降低了任务复杂度,能够生成语义准确且运动稳定的逼真视频。大量实验结果表明,HiGen在性能上显著优于当前最先进的T2V方法。