Command Palette

Search for a command to run...

2 个月前

GenCompositor:基于扩散Transformer的生成式视频合成

Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

GenCompositor:基于扩散Transformer的生成式视频合成

摘要

视频合成技术通过将实拍画面与其它视觉元素相结合,实现视频制作,是视频创作与影视制作中一项至关重要的技术。传统的合成流程依赖大量人工操作与专业人员协作,导致制作周期长、人力成本高。为解决这一问题,我们提出基于生成模型的自动化视频合成方法,称为生成式视频合成(generative video compositing)。该新任务旨在以交互式方式,自适应地将前景视频的身份特征与运动信息注入目标视频,使用户能够灵活定制最终视频中动态元素的尺寸、运动轨迹及其他属性。具体而言,我们基于其内在特性设计了一种新型的扩散Transformer(Diffusion Transformer, DiT)架构。为在编辑前后保持目标视频的一致性,我们引入了一种轻量级的DiT背景保留分支,结合掩码标记注入机制以增强稳定性。为实现从其他来源继承动态元素,我们提出一种基于全自注意力机制的DiT融合模块,并辅以一种简单而高效的前景增强策略用于训练。此外,为支持在用户控制下融合具有不同布局的背景与前景视频,我们设计了一种新型位置编码方法,称为扩展旋转位置编码(Extended Rotary Position Embedding, ERoPE)。最后,我们构建了一个包含6.1万组视频数据的新数据集,命名为VideoComp,用于支持该新任务的研究。该数据集包含完整的动态元素与高质量的目标视频。实验结果表明,所提方法在保真度与一致性方面均显著优于现有方案,能够有效实现高质量的生成式视频合成。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GenCompositor:基于扩散Transformer的生成式视频合成 | 论文 | HyperAI超神经