11 天前

Matrix-3D:全向可探索的3D世界生成

Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
Matrix-3D:全向可探索的3D世界生成
摘要

从单张图像或文本提示中生成可探索的三维世界,构成了空间智能的核心基础。近期研究尝试利用视频模型实现大范围且具备泛化能力的三维世界生成。然而,现有方法在生成场景的覆盖范围上往往受限。为此,本文提出Matrix-3D框架,该框架采用全景表示,实现大范围覆盖、全方位可探索的三维世界生成,融合了条件化视频生成与全景三维重建技术。我们首先训练了一种轨迹引导的全景视频扩散模型,以场景网格渲染图为条件,从而实现高质量且几何一致的场景视频生成。为将全景场景视频提升至三维世界,我们提出了两种独立方法:(1)一种前馈式大规模全景重建模型,用于快速完成三维场景重建;(2)一种基于优化的流水线方法,用于实现高精度、细节丰富的三维场景重建。为支持高效训练,我们还构建了Matrix-Pano数据集——首个大规模合成数据集,包含116,000条高质量静态全景视频序列,并附带深度信息与轨迹标注。大量实验表明,所提出的框架在全景视频生成与三维世界生成任务中均达到了当前最优性能。更多详情请见:https://matrix-3d.github.io。