17 天前

SceneDreamer:基于二维图像集合的无限3D场景生成

Zhaoxi Chen, Guangcong Wang, Ziwei Liu
SceneDreamer:基于二维图像集合的无限3D场景生成
摘要

在本工作中,我们提出了 SceneDreamer,一种用于生成无界三维场景的无条件生成模型,该模型能够从随机噪声中合成大规模的三维景观。我们的框架仅基于真实世界中的二维图像集合进行训练,无需任何三维标注信息。SceneDreamer 的核心是一个系统化的学习范式,包含三个关键组成部分:1)高效且富有表现力的三维场景表示;2)生成式场景参数化方法;3)能够利用二维图像中蕴含知识的有效渲染器。该方法首先通过单纯形噪声(simplex noise)生成一种高效的鸟瞰视角(Bird’s-Eye-View, BEV)表示,该表示包含用于描述地表高程的高度场以及用于刻画精细场景语义的语义场。这一 BEV 场景表示具备以下优势:1)以二次复杂度表示三维场景;2)实现几何与语义的解耦;3)支持高效训练。此外,我们提出了一种新颖的生成式神经哈希网格(generative neural hash grid),基于三维位置和场景语义对潜在空间进行参数化,旨在编码跨多种场景的通用特征。最后,我们采用一种通过对抗训练从二维图像集合中学习得到的神经体素渲染器,生成高度逼真的图像。大量实验结果表明,SceneDreamer 在生成生动且多样化的无界三维世界方面表现出显著的有效性,并在性能上优于当前最先进的方法。