
摘要
尽管近年来三维图像生成模型在图像质量上日益逼真,但大多数模型仍基于固定范围的三维体素数据,且相机运动受限。本文研究了在无条件条件下合成无限扩展自然场景的任务,旨在实现任意范围的相机运动,同时保持一个持续一致的三维世界模型。我们的场景表示由一个可扩展的平面场景布局网格与一个全景式天穹(skydome)构成。该布局网格可通过三维解码器与体素渲染技术,从任意相机姿态进行渲染。基于这一表示,我们仅利用单视角互联网照片即可学习一个生成式世界模型。该方法能够实现对三维景观的长距离飞行模拟,同时保持全局场景的一致性——例如,当相机返回起始位置时,所呈现的场景视图完全一致。本方法突破了现有三维生成模型在固定边界上的限制,实现了场景的无限外推,同时构建了一个与相机无关、持续稳定的场景表示,这与传统的自回归三维预测模型形成鲜明对比。项目主页:https://chail.github.io/persistent-nature/