HyperAI超神经
Back to Headlines

NVIDIA 推出 DiffusionRenderer:用单个视频轻松编辑逼真 3D 场景

10 days ago

NVIDIA及其来自多伦多大学、向量研究所和伊利诺伊大学厄巴纳-香槟分校的研究人员最新推出了一款名为DiffusionRenderer的AI模型,它能够从单个视频中生成可编辑的、逼真的3D场景。这一突破性进展解决了长期以来AI生成视频难以后期编辑的难题,为创作者提供了更加灵活和强大的工具。 过去,虽然AI已经能够生成外观逼真、细节丰富的视频内容,但这些生成的视频无法像传统视频那样进行专业编辑。改变视频中的时间和环境光照、更换材料纹理或无缝插入新元素等操作,在AI生成的内容中几乎是不可能实现的。其原因在于传统的物理基础渲染(PBR)方法需要精确的3D几何、材质纹理和光照图数据,而这些数据在现实世界中很难获得,并且即使是微小的误差也会导致渲染失败。此外,以往的神经渲染技术如NeRF虽然可以生成静态视角,但在视频编辑方面也遇到了瓶颈,因为它们将光照和材质属性固定在场景中,无法进行修改。 DiffusionRenderer则采用了全新的方法,结合了逆向渲染和前向渲染的优势。通过两步走的数据策略,该模型不仅能从完美的合成数据集中学习物理规律,还能自动标注现实世界的视频片段,从而克服了域差距问题。其具体做法包括: 构建一个庞大的合成数据集:研究人员合成了15万个视频,涉及数千个3D对象、PBR材质和HDR光图,使用高质量的路径追踪引擎进行渲染。这为逆向渲染模型提供了一个完美的“教科书”,使其能够在理想化的环境中学习。 自动标注现实世界数据:逆向渲染模型仅基于合成数据训练后,被应用到了10,510段真实视频上,自动生成了G-buffer标签。这使得研究团队拥有了一个包含15万个实例的真实场景数据集,每个场景都附有对应的内在属性图。 这种“自我修正”的协同机制使DiffusionRenderer能够在处理现实世界中复杂的、不完美的数据时表现出色。它不仅在多种任务中超越了现有的经典和神经方法,还实现了对视频光影的一键调整、材质属性的更改以及新元素的无缝插入。 在实际应用中,DiffusionRenderer的工作流程非常简单。模型首先对输入视频进行逆向渲染,识别出场景中的各种属性;用户可以在这些属性上进行编辑,然后模型再次进行前向渲染,生成新的、逼真的视频内容。这一过程大大简化了视频编辑的步骤,提升了创作效率和效果。 业内人士认为,DiffusionRenderer标志着图形学领域的里程碑式突破。传统的PBR方法依赖于高端硬件和专业技能,而这一模型通过数据驱动的方式,降低了创作门槛,使得更多设计师、AR/VR开发者和普通创作者都能受益。NVIDIA作为全球领先的GPU制造商和AI技术公司,此次发布的DiffusionRenderer进一步巩固了其在AI渲染领域的领先地位。 最近,研究团队还在继续优化模型,通过引入NVIDIA Cosmos和改进数据管理,使其在视频去光和重新照明方面的性能更加出色。这些持续的进步表明,随着底层视频扩散模型的增强,未来DiffusionRenderer的输出质量将进一步提高。该模型已在Apache 2.0和NVIDIA开放模型许可下发布,可供开发者和技术人员免费下载和使用。

Related Links