Command Palette
Search for a command to run...
Yuxuan Bian Xin Chen Zenan Li Tiancheng Zhi Shen Sang Linjie Luo Qiang Xu

摘要
在视频生成中实现统一且可泛化的语义控制,仍是当前亟待解决的关键挑战。现有方法要么通过施加不恰当的基于结构的像素级先验,引入视觉伪影;要么依赖非泛化的特定条件微调或任务专用架构。为此,我们提出 Video-As-Prompt(VAP),一种全新的范式,将该问题重新定义为上下文内生成(in-context generation)。VAP 以参考视频作为直接的语义提示,通过一个即插即用的混合Transformer(Mixture-of-Transformers, MoT)专家模块,引导一个冻结的视频扩散Transformer(Video Diffusion Transformer, DiT)。该架构有效避免了灾难性遗忘,并借助一种具有时间偏置的位置编码机制,消除了冗余的映射先验,从而实现鲁棒的上下文检索。为支撑该方法并推动未来研究,我们构建了 VAP-Data——目前规模最大、涵盖100种语义条件、包含超过10万对配对视频的语义控制视频生成数据集。作为单一统一模型,VAP 在开源方法中达到新的最先进水平,用户偏好率达38.7%,媲美领先的专用条件商业模型。VAP展现出强大的零样本泛化能力,并支持多种下游应用,标志着向通用、可控视频生成迈出了重要一步。