Command Palette

Search for a command to run...

23 天前

UniVideo:视频的统一理解、生成与编辑

Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

UniVideo:视频的统一理解、生成与编辑

摘要

统一的多模态模型在多模态内容生成与编辑任务中展现出令人瞩目的成果,但目前仍主要集中于图像领域。在本工作中,我们提出了UniVideo——一种面向视频领域的通用框架,将统一建模范式拓展至视频生成与编辑任务。UniVideo采用双流架构,结合多模态大语言模型(MLLM)以理解指令,以及多模态DiT(MMDiT)用于视频生成。该设计不仅能够准确解析复杂的多模态指令,同时有效保持生成内容的视觉一致性。基于此架构,UniVideo将多种视频生成与编辑任务统一于单一的多模态指令范式之下,并实现跨任务的联合训练。大量实验表明,UniVideo在文本/图像到视频生成、上下文视频生成以及上下文视频编辑等任务中,性能达到或超越现有最先进的专用模型基准。尤为值得关注的是,UniVideo的统一架构支持两种形式的泛化能力。其一,UniVideo支持任务组合,例如通过单条指令整合编辑与风格迁移等多种功能,实现复杂操作的协同执行;其二,即使未在自由形式视频编辑数据上进行显式训练,UniVideo仍能将其从大规模图像编辑数据中学习到的编辑能力迁移至视频领域,成功处理诸如“绿幕抠像角色”或“视频中物体材质更换”等未见过的指令。除上述核心能力外,UniVideo还支持基于视觉提示的视频生成。在此模式下,MLLM负责解析视觉提示,并在视频合成过程中引导MMDiT的生成过程。为推动未来研究的发展,我们将公开发布该模型及其源代码。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniVideo:视频的统一理解、生成与编辑 | 论文 | HyperAI超神经