Command Palette
Search for a command to run...
Relit-LiVE:通过联合学习环境视频实现视频重光照
Relit-LiVE:通过联合学习环境视频实现视频重光照
Weiqing Xiao Hong Li Xiuyu Yang Houyuan Chen Wenyi Li Tianqi Liu Shaocong Xu Chongjie Ye Hao Zhao Beibei Wang
摘要
标题:摘要:最近的进展表明,大规模视频扩散模型可以通过首先将视频分解为内在场景表示,然后在新照明条件下进行前向渲染,被重新用作神经渲染器。尽管这一范式前景广阔,但它根本上依赖于准确的内在分解,而这一过程在真实世界视频中仍然高度不可靠,常常导致重照明过程中出现外观失真、材质断裂以及累积的时间伪影。在本工作中,我们提出了Relit-LiVE,这是一种新颖的视频重照明框架,能够在无需先验相机位姿知识的情况下,生成物理一致且时间稳定的结果。我们的关键洞察是显式地将原始参考图像引入渲染过程,使模型能够恢复在内在表示中不可避免地丢失或损坏的关键场景线索。此外,我们提出了一种新颖的环境视频预测公式,该公式在单个扩散过程中同时生成重照明视频和与每个相机视角对齐的逐帧环境贴图。这种联合预测强化了几何与光照的对齐,并自然地支持动态光照和相机运动,显著提高了视频重照明的物理一致性,同时降低了对已知逐帧相机位姿的要求。大量实验表明,Relit-LiVE在合成和真实世界基准测试中始终优于最先进的视频重照明和神经渲染方法。除了重照明之外,我们的框架还自然地支持一系列下游应用,包括场景级渲染、材质编辑、物体插入以及流式视频重照明。项目地址为 https://github.com/zhuxing0/Relit-LiVE。
一句话总结
RELIT-LIVE 是一种基于扩散模型的视频重光照框架,该框架在单一过程中联合生成重光照视频与逐帧环境贴图,并利用原始参考图像规避不可靠的本征分解,同时消除对已知相机位姿的依赖,从而生成物理一致且时间稳定的结果,支持动态光照与相机运动,大量实验表明其在合成与真实世界基准测试中均持续优于最先进的视频重光照与神经渲染方法。
核心贡献
- 本文提出 RELiT-LiVE,一种无需先验相机位姿估计即可生成物理一致且时间稳定结果的视频重光照框架。
- 该框架将原始参考图像显式整合至扩散渲染管线中,以恢复本征分解过程中丢失的场景线索。一种新颖的环境视频预测公式在单次扩散过程中同步生成重光照视频与与相机视点对齐的逐帧环境贴图,强制实现严格的几何-光照对齐。
- 利用潜在空间插值与循环一致性自监督光照学习的互补训练策略增强了泛化能力与时间光照一致性。在合成与真实世界基准上的大量实验表明,该框架持续优于最先进方法,同时支持材质编辑与流式视频重光照等下游应用。
引言
视频重光照使创作者与视觉系统能够在保留场景几何与材质的同时修改光照,但实现物理精确且时间稳定的结果仍是长期存在的挑战。先前的方法要么依赖直接扩散生成,难以实现精确的光照控制且会保留原始光照伪影,要么依赖本征分解管线,该管线在真实世界影像上经常失效,导致材质失真、时间错误,并严格依赖相机位姿数据。作者通过 RELIT-LIVE 解决这些局限性,该框架在单次扩散过程中联合生成重光照视频与逐帧环境贴图,从而消除对相机位姿的依赖。作者进一步利用 RGB-本征融合渲染器,该渲染器使用原始参考帧注入真实世界光照线索并结合物理约束,确保紧密的几何-光照对齐。配合新颖的潜在空间插值与自监督时间一致性训练,该方法在多样场景中实现物理合理的光照重绘,同时支持材质编辑与神经渲染等下游任务。
方法
作者利用一种新颖的视频重光照框架,该框架结合 RGB-本征融合渲染器与重光照视频及环境视频的联合生成,在无需显式相机位姿估计的情况下实现物理一致且时间稳定的结果。整体架构设计旨在通过直接利用可观测的 RGB 信息来规避传统本征分解的局限性,同时通过本征约束维持物理合理性。
该框架首先使用预训练的逆渲染模型将输入视频 Vs 分解为本征属性。由此生成一组 G-buffer,包含基础颜色 Va、表面法线 Vn、相对深度 Vd、粗糙度 Vr 与金属度 Vm。随后,这些 G-buffer 通过预训练的 VAE 编码器 E 编码至潜在空间,得到对应的潜在变量 {za,zn,zd,zr,zm}。为提升效率与收敛速度,作者提出一种部分分组融合策略,对相关性强的本征属性潜在变量进行求和:z{a,d,m}=za+zd+zm 与 z{n,r}=zn+zr。由此生成两个本征条件潜在变量。
如图下方所示,该框架还整合了来自输入视频的原始图像,该图像经过随机采样并编码为潜在变量 zI。此潜在变量沿帧维度与本征条件潜在变量拼接以引导生成过程,有效抑制源光照的传播。随机采样策略打破了固定对应关系,并在每个去噪步骤中应用以保留细节。
光照条件由初始视点 C1 下的高动态范围环境贴图 E(C1) 表示。这些贴图被转换为三种互补表示:通过 Reinhard 色调映射生成的低动态范围图像、归一化对数强度图像以及方向编码图像。每种表示均被编码至潜在空间并拼接形成 hE,随后通过卷积层处理以获得 cE。该特征与其他条件潜在变量拼接后输入至 DiT 视频模型。该模型同步生成重光照视频 Vt 与对应的环境视频,具体为归一化对数强度贴图 {Eilog(Ci)}i=1n,这些贴图可逆向转换回高动态范围与低动态范围格式。
训练期间,模型学习一个去噪函数 fθ,将拼接的加噪潜在变量(重光照视频、环境视频、参考潜在变量、本征潜在变量与光照条件)映射至去噪输出。这种联合生成方法使模型能够隐式推断光照变换,消除对显式相机位姿估计的需求,并提升时空光照精度。训练过程分为三个阶段,最终阶段采用基于光照一致性的自监督学习,以增强在多样场景与光照条件下的泛化能力。
实验
评估将 RELiT-LiVE 与最先进的视频重光照技术进行对比,涵盖多种合成与真实世界领域,验证其维持材质一致性、时间稳定性及物理精确光照交互的能力。定性评估表明,该模型成功解耦了原始光照,并能处理复杂材质,未出现竞争方法中的失真现象。环境贴图生成实验证实了其在相机视点变化时生成时间稳定光照的能力。额外测试验证了该方法在场景编辑与镜面高光去除等下游任务中的多功能性,消融研究则突显了原始参考图像、联合环境视频生成与专用训练策略如何共同推动稳健且物理合理的光照重绘。
作者在不同数据集上将其方法与现有视频重光照方法进行比较,使用 PSNR、SSIM 与 LPIPS 等指标评估性能。结果表明,该方法在图像与视频重光照任务中均取得优越性能,尤其在处理复杂材质与维持时间一致性方面。该方法在视觉保真度与材质一致性方面相比基线方法有显著提升,在合成与真实世界场景中均表现突出。所提方法在合成与视频数据集的视觉保真度与材质一致性方面优于现有方法。与基线方法相比,该方法在处理复杂材质与维持时间一致性方面取得更优结果。PSNR、SSIM 与 LPIPS 等指标的定量提升表明重光照质量与物理精度得到增强。
作者在不同数据集上将其方法与多种先进的视频重光照方法进行比较,评估与时间一致性、材质一致性及相关用户研究结果相关的指标性能。所提方法在所有评估方面均取得优越性能,尤其在材质一致性与用户偏好方面,同时展现出跨多种光照条件与视频类型的鲁棒性。所提方法在不同光照条件下于材质一致性与用户研究指标方面优于现有方法。该方法展现出强大的时间一致性,尤其在处理动态光照与长视频序列时。在维持物理精确的材质属性与光照效果方面,该方法优于基于文本与环境贴图的方法。
作者将其方法与省略关键组件的变体进行比较,在合成数据集与 MIT 多光照数据集上评估性能。结果表明,同时包含环境视频生成与原始参考图像能显著提升所有指标下的重光照质量。完整模型在各项指标上持续优于消融版本,尤其在视觉保真度与材质一致性方面。引入原始参考图像显著提升重光照质量,尤其在复杂材质上。环境视频与重光照的联合生成带来更优性能,尤其在动态光照与相机运动场景下。完整模型在合成与 MIT 多光照数据集的所有指标上均优于消融版本。
作者在多项视频重光照任务中将其方法与基线方法进行对比,在合成与真实世界数据集上评估性能。结果表明,该方法取得更佳的视觉质量与材质一致性,且在训练与推理效率方面相比基线方法有所提升。所提方法在合成与真实世界数据集的视觉质量与材质一致性方面优于基线方法。该方法在训练与推理效率方面取得显著提升,降低了 GPU 显存占用。基线方法在处理复杂材质与维持时间一致性方面表现较低。
作者在多个数据集(包括合成与真实世界场景)上将其方法与现有视频重光照方法进行比较。结果表明,该方法在视觉与材质保真度方面优于基线方法,尤其在处理复杂材质与维持时间一致性方面。该方法在生成动态光照条件的精确环境贴图方面亦展现出优越性能。该方法在合成与真实世界数据集的所有指标上均优于现有方法。该方法展现出强大的材质一致性,并能准确处理反射与折射等复杂光照效果。该方法能有效生成时间一致的环境贴图,从而实现跨视频帧的精确光照估计。
所提方法在合成与真实世界视频数据集上与现有基线及消融变体进行评估,采用标准保真度指标、一致性评估与用户研究来验证整体重光照性能与各组件贡献。主要对比确认该方法持续提供优越的视觉与材质保真度,在动态光照与相机运动下有效维持时间一致性,并准确渲染复杂表面。消融实验验证了联合生成环境视频与原始参考输入对于高质量材质处理的必要性,效率测试则证实了计算开销的降低与更强的用户偏好,确立该方法作为物理精确视频重光照的稳健解决方案。