3 days ago
《电影导演:面向短片生成》
Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang

摘要
我们提出了一种名为 Captain Cinema 的短片生成框架。给定一个详细的电影剧情文本描述,我们的方法首先生成一系列关键帧,以概述整个叙事,从而确保剧情和视觉表现(例如场景和角色)在长距离上的连贯性。我们将这一过程称为自上而下的关键帧规划。随后,这些关键帧作为条件信号输入到一个视频合成模型中,该模型支持长上下文学习,以生成关键帧之间的时空动态。这一步骤称为自下而上的视频合成。为了支持多场景长叙事电影作品的稳定且高效的生成,我们为多模态扩散变换器(Multimodal Diffusion Transformers,MM-DiT)引入了一种交错训练策略,并专门针对长上下文视频数据进行了优化。我们的模型在由交错数据对构成的专门构建的电影数据集上进行训练。实验结果表明,Captain Cinema 在高质量、高效率地自动生成视觉连贯且叙事一致的短片方面表现优异。项目页面:https://thecinema.ai