Command Palette
Search for a command to run...
Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

摘要
视频合成技术通过将实拍画面与其它视觉元素相结合,实现视频制作,是视频创作与影视制作中一项至关重要的技术。传统的合成流程依赖大量人工操作与专业人员协作,导致制作周期长、人力成本高。为解决这一问题,我们提出基于生成模型的自动化视频合成方法,称为生成式视频合成(generative video compositing)。该新任务旨在以交互式方式,自适应地将前景视频的身份特征与运动信息注入目标视频,使用户能够灵活定制最终视频中动态元素的尺寸、运动轨迹及其他属性。具体而言,我们基于其内在特性设计了一种新型的扩散Transformer(Diffusion Transformer, DiT)架构。为在编辑前后保持目标视频的一致性,我们引入了一种轻量级的DiT背景保留分支,结合掩码标记注入机制以增强稳定性。为实现从其他来源继承动态元素,我们提出一种基于全自注意力机制的DiT融合模块,并辅以一种简单而高效的前景增强策略用于训练。此外,为支持在用户控制下融合具有不同布局的背景与前景视频,我们设计了一种新型位置编码方法,称为扩展旋转位置编码(Extended Rotary Position Embedding, ERoPE)。最后,我们构建了一个包含6.1万组视频数据的新数据集,命名为VideoComp,用于支持该新任务的研究。该数据集包含完整的动态元素与高质量的目标视频。实验结果表明,所提方法在保真度与一致性方面均显著优于现有方案,能够有效实现高质量的生成式视频合成。