7 天前
Phenaki:基于开放域文本描述的变长视频生成
Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan

摘要
我们提出 Phenaki,一种能够根据文本提示序列生成逼真视频的模型。从文本生成视频具有显著挑战性,主要源于计算成本高昂、高质量文本-视频数据数量有限,以及视频长度的可变性。为应对这些挑战,我们引入了一种新型视频表示学习模型,该模型可将视频压缩为少量离散的标记(token)表示。该分词器采用时间上的因果注意力机制,使其能够处理长度可变的视频。为了从文本生成视频标记,我们使用一种基于预计算文本标记的双向掩码 Transformer 模型。生成的视频标记随后被解码为实际视频。为缓解数据不足的问题,我们展示了在大规模图像-文本对语料库与少量视频-文本样本上进行联合训练,能够实现超越现有视频数据集范围的泛化能力。与以往的视频生成方法相比,Phenaki 可在开放领域中,基于一系列时变文本提示(即时间可变的文本或故事)生成任意长度的视频。据我们所知,这是首次系统性研究从时变提示生成视频的工作。此外,相较于逐帧生成的基线方法,所提出的视频编码器-解码器在每段视频中计算的标记数量更少,同时显著提升了时空一致性。