17 天前

GAUDI:一种用于沉浸式3D场景生成的神经架构

Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind
GAUDI:一种用于沉浸式3D场景生成的神经架构
摘要

我们提出GAUDI,一种能够捕捉复杂且逼真三维场景分布的生成模型,该模型支持从运动相机视角进行沉浸式渲染。针对这一具有挑战性的问题,我们采用了一种可扩展且强大的方法:首先优化一个潜在表示,以解耦辐射场与相机位姿;随后,利用该潜在表示学习一个生成模型,从而实现三维场景的无条件生成与条件生成。与以往仅聚焦于单个物体的研究不同,GAUDI摒弃了“相机位姿分布可在不同样本间共享”的假设,显著提升了模型的泛化能力。实验结果表明,GAUDI在多个数据集上均实现了无条件生成任务的当前最优性能,并能够基于条件变量(如稀疏图像观测或描述场景的文本)实现三维场景的条件生成。