
摘要
近年来,扩散模型的进展显著提升了文本到图像生成的质量。然而,从文本生成视频相较于文本到图像生成更具挑战性,主要原因在于视频生成需要更大的数据集以及更高的计算成本。现有的大多数视频生成方法采用3D U-Net架构以建模时间维度,或依赖自回归生成方式。这些方法不仅依赖大规模数据集,其计算开销也远高于文本到图像生成,限制了实际应用。为应对上述挑战,本文提出一种新颖且高效的网格扩散模型(grid diffusion),用于文本到视频生成。该方法在架构中不显式引入时间维度,并基于一个大规模的文本-视频配对数据集。通过将视频表示为网格图像(grid image),我们的方法能够在生成任意长度视频时,仅使用固定量的GPU内存,从而显著降低内存占用。此外,由于该方法将视频的维度压缩至与图像相同的水平,因此可直接应用多种基于图像的方法于视频处理任务中,例如从图像编辑技术拓展至文本引导的视频编辑。在定量与定性评估中,所提出的方法均优于现有主流方法,充分验证了其在真实场景视频生成任务中的有效性与优越性。