Command Palette

Search for a command to run...

23 天前

VideoCanvas:通过上下文条件实现任意时空补丁的统一视频补全

Minghong Cai Qiulin Wang Zongli Ye Wenze Liu Quande Liu Weicai Ye Xintao Wang Pengfei Wan Kun Gai Xiangyu Yue

VideoCanvas:通过上下文条件实现任意时空补丁的统一视频补全

摘要

我们提出了一个任意时空视频补全任务,即用户可在任意空间位置和时间戳上指定任意图像块,系统据此生成完整的视频,这一过程类似于在视频画布上进行“绘画”。该灵活的建模方式自然地将多种现有的可控视频生成任务——包括首帧图像到视频生成、视频修复、视频扩展与插值——统一到一个连贯且统一的框架之下。然而,要实现这一愿景,在现代潜在空间视频扩散模型中仍面临一个根本性挑战:由因果变分自编码器(causal VAEs)引入的时间模糊性,即多个像素帧被压缩为单一潜在表示,导致在帧级别进行精确条件控制在结构上极为困难。为此,我们提出了VideoCanvas——一种新颖的框架,通过将上下文内条件控制(In-Context Conditioning, ICC)范式适配至这一细粒度控制任务,且无需引入任何新增参数。我们提出了一种混合条件控制策略,将空间控制与时间控制解耦:空间位置通过零填充实现,而时间对齐则通过时间RoPE插值(Temporal RoPE Interpolation)完成,该方法为每个条件分配一个连续的分数位置,嵌入至潜在序列中。该方法有效消除了VAE带来的时间模糊性,实现了在冻结主干网络基础上对像素帧级别的精细控制。为评估这一新能力,我们构建了VideoCanvasBench——首个面向任意时空视频补全任务的基准测试平台,涵盖场景内保真度与场景间创造力两个维度。实验结果表明,VideoCanvas显著优于现有的条件控制范式,在灵活且统一的视频生成任务中确立了新的技术水平。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供