Command Palette
Search for a command to run...
用于视频世界模型的潜在空间记忆
用于视频世界模型的潜在空间记忆
Weijie Wang Haoyu Zhao Yifan Yang Feng Chen Zeyu Zhang Yefei He Zicheng Duan Donny Y. Chen Yuqing Yang Bohan Zhuang
摘要
维持生成帧间三维空间一致性的视频世界模型通常依赖于在RGB空间中构建的显式点云记忆。该设计不仅计算开销大(需重复渲染与VAE编码),且本质上具有信息损失,因为经过像素空间的往返过程会丢弃所学潜在表示中的丰富特征。本文提出了一种用于视频世界模型的潜在空间记忆,这是一种持久化的三维缓存,直接在扩散潜在空间中存储场景信息,从而避免了像素空间的重建。在此基础上,我们提出了Mirage,一种潜在空间记忆框架。该框架通过深度引导的反投影将潜在tokens提升至三维以构建记忆,并通过直接在潜在空间中进行扭曲合成新视角来查询该记忆。这种统一的建模方法同时消除了像素空间重建导致的信息损失以及重复编码与渲染的计算负担。实验表明,与显式三维基线相比,潜在空间记忆使端到端视频生成的速度提升了多达10.57倍,并将内存占用降低了55倍。借助扩散模型的几何先验,Mirage在WorldScore上取得了最先进的性能,并在RealEstate10K上实现了优异的重建质量。
一句话总结
Mirage 是一种视频世界模型框架,通过在扩散潜在空间(diffusion latent space)中直接缓存场景信息来保持三维空间一致性。该框架利用深度引导的反投影构建记忆,并通过直接的潜在空间形变进行新视角合成,从而消除有损的像素空间重建。最终实现最高 10.57 倍的生成速度提升、55 倍的显存占用降低、State-of-the-art 的 WorldScore 表现,以及在 RealEstate10K 数据集上的强重建能力。
核心贡献
- 引入潜在空间记忆(Latent spatial memory)作为持久化的三维缓存,直接在扩散潜在空间中存储场景信息,从而消除与像素空间重建相关的计算开销与信息损失。
- Mirage 框架通过深度引导的反投影将 latent token 提升至三维空间来构建此记忆,并通过直接的潜在空间形变进行查询,以合成新视角。
- 实验结果表明,相较于显式三维基线方法,该方法实现最高 10.57 倍的端到端视频生成速度提升和 55 倍的显存占用降低,同时在 WorldScore 上达到领先性能,并在 RealEstate10K 上展现出优异的重建质量。
引言
现代视频世界模型致力于生成时间连贯且可由相机控制的序列,但大多数扩散架构将生成过程视为根本上是二维的。为维持三维一致性,先前方法依赖显式 RGB 点云记忆,这需要计算密集且必然存在信息损失的渲染与编码循环,经常引发几何漂移或视差违规。本文作者提出一种名为 Mirage 的新型潜在空间记忆框架,直接在扩散潜在空间内存储场景信息。通过深度引导的反投影将 latent token 提升至三维空间,并通过直接的潜在空间形变进行查询,该方法消除了昂贵的像素空间往返开销,相比显式三维基线方法,实现最高 10.57 倍的视频生成加速与 55 倍的 GPU 显存占用降低。
数据集
- 数据集构成与来源: 作者使用包含室内房地产视频的 RealEstate10K 数据集,以及专为全面视频生成评估设计的标准化基准 WorldScore 来训练和评估模型。
- 子集详情: RealEstate10K 提供专门用于新视角合成的成对真实视频素材,并支持闭环评估协议。WorldScore 提供包含十项指标的评估框架,用于衡量不同视频生成任务中的可控性、一致性、质量与运动表现。
- 数据使用与处理: 训练过程依赖完整的 RealEstate10K 语料库,不进行显式的训练集与测试集划分或混合比例设置。训练前,作者过滤掉动态区域并移除深度与相机位姿标注。随后,视频数据通过一个压缩比为 4x16x16 的变分自编码器(VAE)进行压缩,将 704x1280 分辨率下的 33 帧 RGB 图像转换为 44x80 分辨率下的 9 帧潜在帧,以支持高效的模型训练。
- 评估设置: 处理后的数据集用于与多种基线方法(包括 RGB 点云生成器、基础视频模型及具备三维感知能力的生成器)进行生成质量基准测试。性能评估采用 WorldScore 指标,结合 PSNR、SSIM 和 LPIPS 等传统图像质量度量,以及 RealEstate10K 上的闭环一致性得分。
方法
作者采用基于潜在空间的潜在空间记忆方法用于视频生成,构建了一个完全在扩散模型潜在流形内运行的持久化三维缓存,从而避免像素空间操作带来的计算与表示开销。该框架命名为 Mirage,维护一个带有潜在属性标注的三维点云 M={(pi,fi)},其中每个点 pi∈R3 为世界空间坐标,fi∈RC 为潜在特征向量,直接源自 VAE 编码器输出,并与扩散主干网络的原始输入空间相匹配。该设计与先前将 RGB 颜色存储在点云中的方法形成对比,后者需要昂贵的光栅化与重新编码步骤来为生成器提供条件引导。
整体流程从初始化开始,初始帧 I0 由 VAE 编码器 E 编码为潜在张量 z0。利用深度图 D0、相机位姿 E0 和内参 K0,每个潜在网格单元 (u,v) 被反投影至世界空间以生成记忆点 puv,并存储对应的 latent token fuv=z0[:,v,u]。随后,该初始缓存通过重复的读取与更新循环,自回归地生成视频序列。
在生成每个视频块(chunk)期间,潜在记忆被查询以获取条件引导信号。对于目标视角 (Et,Kt),记忆点被投影至目标相机网格的潜在分辨率平面上。对于每个潜在网格单元 (u,v),选取最前方的投影点(通过 Z 缓冲确定),并提取其关联的潜在特征 fi 作为读取输出 z^t(u,v)。同时生成一个二值可见性掩码 mt,用于指示哪些网格单元接收到了有效投影。这些读取特征与可见性掩码被拼接,并通过类 ControlNet 的侧向分支注入扩散主干网络。该分支将潜在记忆信号与模型内部特征空间对齐,无需额外的桥接编码器。这使得主干网络能够完全在潜在域中对视频块进行去噪,从而消除了像素空间渲染的需求。
视频块生成完成后,系统更新持久化缓存。新生成的帧由 VAE 重新编码为干净的潜在张量 z~t,并估计其深度图。随后,latent token 按照与初始化相同的流程被反投影至缓存中,但仅针对检测到的动态物体与天空区域之外的网格单元执行,该检测由开放词汇实体提取器与视频分割器共同完成。此过滤机制确保仅将静态且几何可靠的场景内容加入缓存,从而维持缓存的一致性。更新后的记忆用于后续视频块,当前块的已去噪潜在特征将作为短期时间上下文传递至下一步。这一在视频块级别发生的自回归更新过程,分摊了解码与重新编码的开销,并在关键的条件引导路径中避免了像素空间操作,从而带来显著的效率提升。
实验
在 WorldScore 和 RealEstate10K 基准上针对世界生成、新视角合成与闭环一致性进行的评估表明,Mirage 的潜在空间记忆在长期稳定性与几何一致性方面显著优于 RGB 缓存及无记忆基线方法。消融实验与效率分析证实,完全在潜在空间内运行消除了昂贵的像素空间往返开销,降低了显存扩展需求,并保留了原始颜色通道无法捕捉的丰富语义特征。最终,该方法将生成器锚定于一致的空间表示上,防止累积漂移,即使在具有挑战性或非领域内的轨迹下也能维持结构完整性。
实验评估了不同深度下采样方法对缓存构建的影响,重点关注以空洞率作为覆盖度的衡量指标。结果表明,双线性插值实现了最低的空洞率,表明相较于其他方法,其潜在网格覆盖度更好,说明其在保留缓存空间结构方面更为有效。在测试的下采样方法中,双线性插值产生的空洞率最低。最近邻、区域池化与中值池化表现出较高的空洞率,表明其对潜在网格的覆盖效果较差。下采样方法的选择显著影响缓存覆盖度,其中双线性插值最为有效。
作者对比了 Mirage 与基线方法在多个生成块(rollout chunks)中的效率,重点关注单帧生成时间与峰值显存占用。结果显示,Mirage 保持了稳定的单帧成本与极低的显存增长,而其他方法在生成过程中两项指标均显著上升。这证明了潜在空间记忆在降低计算开销与显存占用方面的优势。Mirage 在多个生成块中维持稳定的单帧生成时间,而其他方法则显示时间需求逐渐增加。与观察到的其他方法快速上升不同,Mirage 的峰值显存占用随生成进程缓慢增长。Mirage 的效率提升归因于在条件引导循环中消除了像素空间往返,从而实现更低的内存消耗与更快的处理速度。
作者通过对比多项指标的表格,评估了不同组件对完整 Mirage 系统的影响。结果显示,完整系统性能优于所有消融变体,其中移除动态物体过滤器或使用 RGB 缓存替代潜在缓存时,性能下降最为显著。完整系统在所有类别中取得最高得分,尤其在三维一致性与光度一致性方面表现突出。消融研究揭示,潜在空间记忆与动态过滤等关键设计选择对于维持长期稳定性与一致性至关重要。与消融变体相比,完整的 Mirage 系统在所有指标上均取得最高得分。移除动态物体过滤器导致最显著的性能下降,尤其在三维一致性与光度一致性方面。使用显式 RGB 点云替代潜在缓存会导致性能降低,这表明在潜在空间中保留语义与纹理信息的重要性。
作者在新视角合成与闭环一致性任务上,将 Mirage 方法与多种基线方法进行对比评估。结果表明,Mirage 在这两类设置中均取得最高性能,在关键指标上超越其他方法,同时保持优异的几何与光度一致性。相较于基于 RGB 的缓存方法,该方法展现出更优的效率,单帧计算成本与显存占用显著更低。与所有基线方法相比,Mirage 在新视角合成与闭环一致性任务中均取得最佳结果。Mirage 展现出更优的效率,其单帧计算成本与显存使用均低于基于 RGB 的缓存方法。Mirage 维持了强大的几何与光度一致性,在两种评估协议下的关键指标中均优于其他方法。
作者评估了不同深度来源对 Mirage(一种用于视频生成的潜在空间记忆系统)性能的影响。结果显示,默认深度来源 DepthAnything 3 在所有指标上持续优于其他替代方案,包括平均分、静态与动态分区性能,以及三维与光度一致性。尽管其他深度来源保持了具有竞争力的结果,但默认来源的优势在三维一致性与光度质量方面最为明显,表明深度估计器的选择会影响生成场景的一致性与稳定性。与替代深度来源相比,DepthAnything 3 在所有指标上均取得最高性能。默认深度来源在三维一致性与光度一致性方面展现出最强的提升效果。替代深度来源保持了具有竞争力的结果,但在关键领域持续落后于默认来源。
该评估系统性地考察了 Mirage 框架在缓存构建技术、计算效率、组件消融、新视角合成、闭环一致性以及深度来源选择等方面的表现。实验验证了双线性插值优化了潜在网格覆盖度,而潜在空间记忆架构确保了在长期生成过程中稳定的计算开销与极小的显存扩展。消融研究表明,动态物体过滤器与潜在缓存机制对于保留几何与光度一致性至关重要,完整系统在生成质量与效率方面持续优于基线方法。此外,默认深度估计器进一步增强了场景稳定性与视觉保真度,证实了所提方法的整体鲁棒性。