Ye Fang Tong Wu Valentin Deschaintre Duygu Ceylan Iliyan Georgiev Chun-Hao Paul Huang Yiwei Hu Xuelin Chen Tuanfeng Yang Wang

摘要
大规模视频生成模型在建模真实场景中的逼真外观与光照交互方面展现出巨大潜力。然而,一种能够联合理解场景内在属性(如反照率、法线、材质和辐照度)、利用这些属性进行视频合成,并支持可编辑的内在表示的闭环框架,至今仍未被探索。本文提出 V-RGBX,首个面向内在感知的端到端视频编辑框架。V-RGBX 统一了三项核心能力:(1)将视频逆向渲染为内在通道表示;(2)基于这些内在表示生成逼真的视频;(3)基于关键帧、以内在通道为条件进行视频编辑。V-RGBX 的核心是一个交错式条件机制,使用户可通过选择关键帧实现直观且物理合理的视频编辑,支持对任意内在模态的灵活操控。大量定性和定量实验结果表明,V-RGBX 能生成时间上一致、逼真的视频,并以符合物理规律的方式将关键帧编辑传播至整个视频序列。我们在多种应用场景中验证了该方法的有效性,包括物体外观编辑与场景级再光照,其性能显著优于现有方法。