LongVie 2:多模态可控超长视频世界模型
LongVie 2:多模态可控超长视频世界模型
Jianxiong Gao Zhaoxi Chen Xian Liu Junhao Zhuang Chengming Xu Jianfeng Feng Yu Qiao Yanwei Fu Chenyang Si Ziwei Liu
Abstract
基于预训练视频生成系统构建视频世界模型,是实现通用时空智能的重要 yet 挑战性步骤。一个理想的世界模型应具备三个核心特性:可控性、长期视觉质量以及时间一致性。为此,我们采用渐进式方法——首先提升模型的可控性,随后逐步扩展至长期、高质量的视频生成。我们提出 LongVie 2,一个端到端的自回归框架,通过三个阶段进行训练:(1)多模态引导,通过融合密集与稀疏控制信号,提供隐式的全局世界级监督,显著增强模型的可控性;(2)基于输入帧的退化感知训练,弥合训练阶段与长期推理之间的差距,有效维持高质量的视觉表现;(3)历史上下文引导,通过对相邻视频片段间的上下文信息进行对齐,确保生成内容的时间一致性。此外,我们还构建了 LongVGenBench,一个综合性基准测试集,包含100段高分辨率、时长一分钟的视频,涵盖多样化的现实世界与合成环境。大量实验表明,LongVie 2 在长程可控性、时间连贯性与视觉保真度方面均达到当前最优水平,并支持长达五分钟的连续视频生成,标志着向统一视频世界建模迈出了关键一步。
一句话总结
复旦大学、南京大学、新加坡国立大学、英伟达、清华大学和上海人工智能实验室的作者提出 LongVie 2,这是一种端到端的自回归视频世界模型,通过融合多模态引导、退化感知训练和历史上下文建模,实现了可控的超长视频生成,最长可达五分钟,相比以往工作在长期一致性与视觉保真度方面表现更优。
主要贡献
-
LongVie 2 通过扩展预训练扩散主干网络,提出一种渐进式的三阶段训练框架,解决了构建可控、长时程视频世界模型的挑战,显著提升了可控性、时间一致性与视觉保真度——这些是实现真实时空建模的关键属性。
-
该方法引入多模态引导,利用密集(如深度图)和稀疏(如关键点)控制信号提供隐式的全局世界级监督;采用退化感知训练以模拟长期推理条件并维持视觉质量;引入历史上下文引导以对齐相邻片段,确保长程时间连贯性。
-
LongVie 2 在 LongVGenBench 上进行评估,这是一个包含 100 个高分辨率一分钟视频的新基准,涵盖多样化的现实与合成环境,其在可控性、时间一致性和视觉保真度方面均达到当前最优水平,支持长达五分钟的连续视频生成。
引言
作者利用预训练视频扩散模型构建 LongVie 2,这是一种可控制的超长视频世界模型,能够生成具有高视觉保真度和时间一致性的 3–5 分钟视频。本工作解决了以往视频世界模型的两个关键挑战:可控性有限——通常仅限于低级或局部输入;以及脆弱的长期一致性,即在长序列中视觉质量下降并出现时间漂移。为克服这些问题,作者提出一种三阶段训练框架:首先,通过密集(如深度图)和稀疏(如关键点)控制信号的多模态引导,实现全局语义级场景操控;其次,采用退化感知训练策略,对早期帧施加可控失真,弥合短训练片段与长时程推理之间的差距;第三,通过将前序帧作为输入引入历史上下文,确保生成片段间稳定的时间演化。这些创新使 LongVie 2 能够生成高度一致、可控且视觉逼真的长视频,为可扩展视频世界建模树立了新标准。
数据集
- 第一阶段和第二阶段的数据集包含约 60,000 个视频,来自三个来源:ACID 和 ACID-Large 提供海岸线与自然景观的航拍视频;Vchitect_T2V_DataVerse 是一个包含超过 1400 万个高质量互联网视频的语料库,附有详细文本注释;MovieNet 包含 1,100 部跨类型、跨地区、跨年代的完整电影。
- 所有视频均转换为 81 帧片段,采样率为 16 fps,以确保一致的时间分辨率和稳定训练。
- 第三阶段聚焦长时程建模,使用 OmniWorld 和 SpatialVID 中的长视频。从每段视频中,从第 20 帧开始提取 81 帧的目标片段,所有前序帧作为历史上下文。共随机选取 40,000 个此类片段构成第三阶段训练集。
- 为确保时间连贯性,作者使用 PySceneDetect 检测并移除场景切换,将原始视频分割为无过渡的片段。每个片段在 16 fps 下均匀采样并截断为 81 帧。
- 对每个 81 帧片段,作者生成丰富的控制信号:通过 Video Depth Anything 生成深度图,使用 SpatialTracker 生成点轨迹,通过 Qwen-2.5-VL-7B 生成描述性字幕。
- 最终整理的数据集包含约 100,000 个视频-控制信号对,构成 LongVie 的统一训练基础。
- 评估数据集 LongVGenBench 用于评估可控性与长期一致性。其包含多样化的现实与合成场景,时长至少一分钟,分辨率达 1080p 或更高,且具有多样的摄像机运动。
- 推理时,每个 LongVGenBench 视频被分割为带一帧重叠的 81 帧片段,对应字幕与控制信号被提取以构建测试输入数据。
方法
作者采用多模态控制注入框架,增强长视频生成的可控性。核心架构 LongVie 2 基于预训练 DiT 主干网络,该主干网络保持冻结以保留其先验知识。为引入控制信号,模型复制了基础 DiT 的前 12 层,创建两个轻量级可训练分支:一个用于处理深度图的密集分支,一个用于处理点图的稀疏分支。这两个分支分别记为 FD(⋅;θD) 和 FP(⋅;θP),用于处理各自的编码控制输入 cD 和 cP。控制信号通过零初始化的线性层 ϕl 注入主生成路径,确保控制影响从零开始并随训练逐步增强,避免对模型初始行为造成干扰。第 l 个受控 DiT 块的总体计算定义为
zl=Fl(zl−1)+ϕl(FDl(cDl−1)+FPl(cPl−1)),其中 Fl 表示冻结的基础 DiT 块。该设计使模型能够同时利用深度图提供的详细结构信息与点轨迹提供的高层语义线索,形成隐式的世界表征。

为应对密集控制信号在生成过程中往往占主导地位的固有不平衡问题,作者提出基于退化的训练策略。该策略通过两种互补机制削弱密集信号的影响。在特征层面,以概率 α,密集控制的潜在表示被随机缩放,缩放因子 λ 从均匀分布 [0.05,1] 中采样;在数据层面,以概率 β,密集控制张量通过两种技术进行退化:随机尺度融合(Random Scale Fusion),即对下采样版本进行多尺度加权求和;自适应模糊增强(Adaptive Blur Augmentation),即施加随机尺寸的平均模糊以降低锐度。这些退化设计旨在缓解对密集信号的过度依赖,促使模型学习更均衡的多模态融合。在该预训练阶段,仅更新控制分支与融合层 ϕl 的参数,主干网络保持冻结。

训练过程采用三阶段自回归框架。第一阶段为“纯净预训练”(Clean Pretraining),通过干净无退化的输入建立强可控性基础。第二阶段“退化调优”(Degradation Tuning)引入退化感知策略,弥合训练与长时程推理之间的领域差距。该阶段有意对每个片段的第一帧进行退化,以模拟长期生成中出现的质量衰减。退化算子 T(⋅) 定义为两种机制的概率组合:编码退化,通过反复编码与解码模拟 VAE 引起的损坏;生成退化,通过添加噪声并去噪潜在表示模拟扩散过程的退化。该阶段提升了视觉质量,但引入了新的时间不一致性挑战。第三阶段“历史感知精炼”(History-Aware Refinement)通过引入历史上下文引导解决此问题。在此阶段,模型基于前 NH 个历史帧的潜在表示 zH 进行条件化,这些表示通过编码历史帧获得。为与推理中遇到的退化输入保持一致,历史帧在编码前也使用相同算子 T(⋅) 进行退化。模型被训练为在初始帧、历史上下文与控制信号的条件下生成下一片段,目标是维持时间连贯性。

为进一步提升时间一致性,作者引入两种无需训练的策略。第一种是统一噪声初始化(Unified Noise Initialization),在所有视频片段中保持单一共享的噪声实例,提供一致的随机先验,增强时间连续性。第二种是全局归一化(Global Normalization),通过计算全视频中所有像素值的第 5 和第 95 百分位数,将深度值裁剪并线性缩放到 [0,1] 范围,确保片段间深度尺度一致。该策略对异常值具有鲁棒性,可防止因独立归一化导致的时间不连续。模型配置中,特征级退化概率 α 设为 15%,数据级退化概率 β 设为 10%。退化策略在训练过程中逐步引入,前 2000 次迭代完全禁用,最后 1000 次迭代逐步激活。密集与稀疏分支采用“半复制”初始化方法,即预训练权重交错排列并减半特征维度,为联合学习提供稳定起点。
实验
- LongVie 2 在 LongVGenBench 上进行评估,该基准包含 100 个高分辨率一分钟视频,覆盖多样化的现实与合成环境,验证其长程可控性、时间连贯性与视觉保真度。
- 在 LongVGenBench 上,LongVie 2 达到最先进性能:美学质量 58.47%,成像质量 69.77%,SSIM 0.529,LPIPS 0.295,主体一致性 91.05%,背景一致性 92.45%,整体一致性 23.37%,动态程度 82.95%,全面超越所有基线模型,包括 Wan2.1、Go-With-The-Flow、DAS、Hunyuan-GameCraft 和 Matrix-Game。
- 60 名参与者的人工评估确认,LongVie 2 在视觉质量、提示-视频一致性、条件一致性、颜色一致性与时间一致性方面均优于所有基线,所有类别均取得最高平均分。
- 消融研究显示,每个训练阶段——控制学习、退化感知训练、历史上下文引导——均逐步提升可控性、视觉质量与长期一致性,完整模型取得最佳效果。
- LongVie 2 成功生成长达五分钟的连续视频,在多种场景下保持高视觉保真度、结构稳定性、运动连贯性与风格一致性,包括受主体驱动与无主体的序列,以及季节风格迁移。
作者通过消融研究评估全局归一化与统一初始噪声对 LongVie 2 性能的影响。结果表明,移除任一组件均导致视觉质量、可控性与时间一致性明显下降,表明二者对维持高质量、一致的长视频生成至关重要。

结果表明,LongVie 2 在所有人工评估指标上均取得最高分,包括视觉质量、提示-视频一致性、条件一致性、颜色一致性与时间一致性,展现出相比基线模型更优的感知质量与可控性。

结果表明,LongVie 2 在所有评估指标上均达到最先进水平,优于现有基线模型在视觉质量、可控性与时间一致性方面的表现。模型在美学质量、成像质量、SSIM、LPIPS 以及所有时间一致性度量上均表现卓越,证实其在长程可控视频生成中的有效性。

作者采用分阶段训练方法,逐步提升 LongVie 2 的可控性、视觉质量与时间一致性。结果表明,每个阶段均带来增量提升,最终模型在所有指标上均达到最先进水平,尤其在长期时间连贯性与视觉保真度方面表现突出。

结果表明,LongVie 2 中的退化训练策略显著提升了视频质量、可控性与时间一致性。同时引入编码退化与生成退化时性能最佳,联合方法在所有指标上均取得最高分,证明了两种退化类型具有互补优势。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.