HyperAIHyperAI

Command Palette

Search for a command to run...

EX-4D:基于深度无孔网格的极端视角4D视频合成

Tao Hu Haoyang Peng Xiao Liu Yuewen Ma

Abstract

从单目输入生成高质量且可控制相机视角的视频是一项极具挑战性的任务,尤其在极端视角下更为困难。现有方法在边界处常因几何不一致性和遮挡伪影而导致视觉质量下降。本文提出一种新型框架——EX-4D,通过引入深度封闭网格(Depth Watertight Mesh)表示来有效解决上述问题。该表示通过显式建模可见与被遮挡区域,为场景提供了稳健的几何先验,从而在极端相机位姿下仍能保持良好的几何一致性。为应对缺乏成对多视角数据集的难题,我们设计了一种模拟掩码策略,仅利用单目视频即可生成有效的训练数据。此外,我们采用一种轻量级的基于LoRA的视频扩散适配器,以生成在物理一致性、视觉质量与时间连贯性方面均表现优异的高质量视频。大量实验结果表明,EX-4D在物理一致性和极端视角下的视频质量方面均显著优于当前最先进方法,为实际应用中的4D视频生成提供了可行方案。

一句话总结

来自 Pico 和字节跳动的作者提出 EX-4D,一种从单目输入在极端视角下生成高质量、相机可控 4D 视频的新框架。通过引入一种深度密封网格(Depth Watertight Mesh)表示法,该方法显式建模可见与被遮挡区域,确保几何一致性并有效处理边界遮挡问题。与依赖成对多视角数据的先前工作不同,该方法仅使用单目视频,通过模拟遮挡策略进行训练,并集成轻量级基于 LoRA 的视频扩散适配器,生成在物理和时间上一致的结果,显著推动了实用 4D 视频合成的发展。

主要贡献

  • 我们提出深度密封网格(DW-Mesh)表示法,显式建模可见与被遮挡区域,确保几何一致性,并消除极端相机视角下的边界伪影。
  • 我们引入一种模拟遮挡策略,通过结合渲染可见性掩码与时间一致的追踪,从单目视频生成训练数据,无需成对多视角数据集。
  • 我们将轻量级基于 LoRA 的视频扩散适配器与 DW-Mesh 先验相结合,实现高质量、物理一致且时间连贯的 4D 视频合成,性能显著优于当前最先进方法,尤其在极端视角下表现突出。

引言

作者针对从单目输入生成高质量、相机可控 4D 视频的挑战,特别是在从 -90° 到 90° 的极端视角范围内。这一能力对自由视角视频和混合现实等沉浸式应用至关重要,其中物理一致且时间连贯的新视角生成尤为关键。先前方法或依赖基于相机的引导(几何保真度有限),或依赖基于几何的方法(无法建模被遮挡区域),导致极端视角下出现边界伪影和外观不一致。作者提出 EX-4D 框架,利用深度密封网格(DW-Mesh)表示法显式编码可见与被遮挡的几何信息,确保在极端相机姿态下仍具备鲁棒的几何一致性。为克服缺乏成对多视角训练数据的问题,作者提出一种基于渲染与追踪可见性掩码的模拟遮挡策略,仅使用单目视频即可实现有效训练。随后,一个轻量级基于 LoRA 的视频扩散适配器将此几何先验融入预训练扩散模型,生成高保真、时间连贯的视频,且计算开销极低。该方法在物理一致性和极端视角质量方面达到当前最先进水平,尤其在挑战性角度下表现优异,经由定量指标与用户研究验证。

数据集

  • 作者使用 OpenVID [27] 作为主要训练数据集,这是一个大规模单目视频集合,包含超过 100 万条高质量视频,涵盖多样的相机运动与动态场景。
  • 评估阶段,构建了 150 个真实网络视频组成的测试集,以捕捉现实世界的复杂性,包括多样的动态与相机运动。
  • 测试集在四个逐步增加挑战性的角度范围内进行评估:小范围(0°→30°)、大范围(0°→60°)、极端范围(0°→90°)和全范围(-90°→90°),所有方法使用相同的相机轨迹以确保公平性。
  • 训练采用模拟遮挡策略,无需多视角数据或相机标定,可高效利用 OpenVID 中的单目视频。
  • 模型使用 OpenVID 中视频序列的混合数据进行训练,输入视频被缩放至 512×512 分辨率,并截断为每序列 49 帧。
  • 基于 LoRA(秩为 16)的轻量级适配器在冻结的 Wan2.1 视频扩散主干网络上训练,可训练参数约 1.4 亿,仅占完整 140 亿模型的 1%。
  • DW-Mesh 构建中的深度估计使用预训练的 DepthCrafter 模型 [19],深度阈值设为深度范围的 0.013,边界填充最大深度为 100。
  • Nvdiffrast [23] 用于训练与验证阶段的渲染。
  • 适配器使用 AdamW 优化器,学习率为 3×10⁻⁵,在 32 块 NVIDIA A100 GPU(80GB)上训练,一天内完成。
  • 推理阶段每条视频生成耗时约 4 分钟,使用 25 步去噪。
  • 评估指标包括 FID 与 FVD(视觉与时间质量)、VBench(全角度感知质量)以及用户研究(评估人类感知)。
  • 所有方法在相同条件下评估,包括共享相机轨迹与几何基线的深度输入,确保公平比较。

方法

EX-4D 框架通过将几何先验与视频扩散模型结合,从单目输入合成高质量 4D 视频。整体架构如框架图所示,包含三个主要组件:构建深度密封网格(DW-Mesh)以建模场景几何、生成训练掩码以模拟新视角遮挡、以及一个轻量级基于 LoRA 的适配器,用于条件化视频扩散过程。这种模块化设计使得在无需多视角训练数据的情况下,也能在极端相机视角下合成时间连贯且几何一致的视频。

第一部分是深度密封网格(DW-Mesh),用于解决极端视角下遮挡处理的挑战。如图所示,DW-Mesh 显式建模场景的可见与隐藏区域,确保表面闭合且密封。对于每个输入帧,使用预训练深度估计模型计算每帧深度图,将每个像素的深度值反投影至 3D 空间形成顶点。为确保在任意视角下网格仍保持闭合表面,对帧边界像素赋予最大深度值,实施边界填充策略。相邻顶点构成三角形面片,同时在网格边界添加两个额外面片以保证密封性。随后基于几何验证为每个面片分配遮挡属性:若面片最小角度低于阈值或存在显著深度不连续,则标记为遮挡。面片纹理值设为对应像素颜色(若可见),或设为黑色(若被遮挡)。该过程生成全面的几何表示,捕捉可见与隐藏表面,为新视角渲染提供稳健先验。

DW-Mesh 沿目标相机轨迹进行光栅化渲染,生成彩色视频与二值掩码视频。这些输出作为几何先验,用于条件化视频扩散模型,以合成具有更高视觉一致性与几何准确性的新视角帧。第二部分是掩码生成,旨在从单目视频中生成有效的训练对。该过程包含两种策略:渲染掩码生成与追踪掩码生成。渲染掩码生成利用 DW-Mesh 模拟新视角下的遮挡效果,通过全旋转相机轨迹渲染网格,并应用形态学膨胀以抑制噪声。追踪掩码生成通过跨帧追踪点并标记其周围区域为遮挡,确保时间一致性,物理上与新视角视频生成中实际的可见性变化相一致。

最终组件是一个轻量级基于 LoRA 的视频扩散适配器,用于将几何先验整合至视频合成流程。该适配器包含四个主要模块:先验编码、线性投影、特征融合与 LoRA。先验编码模块使用冻结的 Video VAE 编码器,从输入彩色视频与对应掩码视频中提取紧凑的潜在表示。这些潜在特征被拼接后,通过一系列 1×1×11 \times 1 \times 11×1×1 Conv3d 层,再经一个核大小为 (1,2,2)(1, 2, 2)(1,2,2)、步长为 (1,2,2)(1, 2, 2)(1,2,2) 的最终 Conv3d 层,生成与扩散模型输入形状匹配的块嵌入。投影后的几何先验通过逐元素加法与扩散过程中的噪声潜在特征融合,使模型能够同时基于外观与遮挡信息进行条件生成。为实现高效训练,采用低秩适配(LoRA),在视频扩散主干网络的特定线性投影权重(如注意力投影与前馈块)中引入低秩更新。该方法使预训练视频扩散模型保持冻结,仅更新少量参数,从而实现轻量且可扩展的适配器。训练目标遵循原始扩散模型的去噪目标,确保快速收敛与稳定性能。

实验

  • EX-4D 在不同视角范围的定量指标上持续优于基线方法:在小、大、极端视角下分别取得 FID 44.19、50.30、55.42 的成绩,超越 TrajectoryCrafter 与 TrajectoryAttention;FVD 得分最低(571.18、685.39、823.61),表明时间连贯性更优,且在极端视角下性能差距进一步扩大。
  • 在 VBench 指标上,EX-4D 在美学质量(0.450)、成像质量(0.631)、时间一致性(0.914)、主体一致性(0.846)与背景一致性(0.872)方面均取得最高分,体现 DW-Mesh 带来的几何稳定性;在运动平滑性上略逊于 ReCamMaster(0.934 vs. 0.938),但在整体动态性能(0.948)上领先。
  • 50 名参与者的用户研究表明,EX-4D 在 70.70% 的选择中优于基线(TrajectoryCrafter:14.96%,ReCamMaster:9.50%,TrajectoryAttention:4.84%),证实其在物理一致性和极端视角质量上的优势,且显著减少如扭曲、闪烁等伪影。
  • 消融实验确认 DW-Mesh 至关重要:移除后 FID 上升 34.1%,FVD 上升 33.9%;结构化掩码优于随机掩码;渲染与追踪掩码均不可或缺;基于 LoRA 的适配器高效且有效,增加秩带来的提升微乎其微;ControlNet 导致显存溢出。
  • 失败案例揭示深度估计精度与细结构保留的局限性,导致几何失真与细部丢失,提示未来可通过多帧深度一致性、不确定性感知网格构建或神经精炼进行改进。

作者通过定量对比评估 EX-4D 方法与当前最先进基线,结果显示 EX-4D 在多数 VBench 指标上得分最高,包括美学质量、成像质量与动态程度。结果表明,EX-4D 在主体与背景一致性方面全面超越所有基线,展现出卓越的几何稳定性与时间连贯性,尤其在极端视角条件下表现突出。

作者通过消融研究评估 EX-4D 框架中各组件的影响,结果显示移除 DW-Mesh 导致性能下降最大,FID 上升 34.1%,FVD 恶化 33.9%。结果还表明,渲染与追踪掩码均不可或缺,增加 LoRA 秩仅带来微小提升,凸显其轻量适配器的高效性。

作者使用表格对比 EX-4D 与基线在 FID 与 FVD 指标上的表现,不同视角范围下。结果显示,EX-4D 在所有类别中均取得最低 FID 与 FVD 分数,尤其在极端视角下性能差距最大,表明其具备更优的质量与鲁棒性。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EX-4D:基于深度无孔网格的极端视角4D视频合成 | Papers | HyperAI超神经