2 个月前

GenCompositor：基于扩散Transformer的生成式视频合成

Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

摘要

视频合成技术通过将实拍画面与其它视觉元素相结合，实现视频制作，是视频创作与影视制作中一项至关重要的技术。传统的合成流程依赖大量人工操作与专业人员协作，导致制作周期长、人力成本高。为解决这一问题，我们提出基于生成模型的自动化视频合成方法，称为生成式视频合成（generative video compositing）。该新任务旨在以交互式方式，自适应地将前景视频的身份特征与运动信息注入目标视频，使用户能够灵活定制最终视频中动态元素的尺寸、运动轨迹及其他属性。具体而言，我们基于其内在特性设计了一种新型的扩散Transformer（Diffusion Transformer, DiT）架构。为在编辑前后保持目标视频的一致性，我们引入了一种轻量级的DiT背景保留分支，结合掩码标记注入机制以增强稳定性。为实现从其他来源继承动态元素，我们提出一种基于全自注意力机制的DiT融合模块，并辅以一种简单而高效的前景增强策略用于训练。此外，为支持在用户控制下融合具有不同布局的背景与前景视频，我们设计了一种新型位置编码方法，称为扩展旋转位置编码（Extended Rotary Position Embedding, ERoPE）。最后，我们构建了一个包含6.1万组视频数据的新数据集，命名为VideoComp，用于支持该新任务的研究。该数据集包含完整的动态元素与高质量的目标视频。实验结果表明，所提方法在保真度与一致性方面均显著优于现有方案，能够有效实现高质量的生成式视频合成。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

GenCompositor：基于扩散Transformer的生成式视频合成

Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

摘要

用 AI 构建 AI

Hyper Newsletters