Command Palette
Search for a command to run...

摘要
世界建模已成为人工智能研究的核心方向,使智能体能够理解、表征并预测其所处的动态环境。尽管以往研究主要聚焦于二维图像与视频数据的生成方法,却忽视了近年来迅速发展的、基于原生三维(3D)与四维(4D)表示形式(如RGB-D图像、占据网格和LiDAR点云)的大规模场景建模研究。与此同时,由于“世界模型”尚缺乏统一的定义与分类体系,相关文献中出现了碎片化且时常不一致的论述。为此,本综述首次系统性地全面回顾了面向3D与4D世界建模与生成的研究工作。我们提出了精确的定义,构建了一个涵盖基于视频(VideoGen)、基于占据(OccGen)以及基于LiDAR(LiDARGen)三类方法的结构化分类体系,并系统梳理了适用于3D/4D场景的数据集与评估指标。此外,我们还探讨了实际应用场景,识别了当前面临的开放性挑战,并指出了具有前景的研究方向,旨在为该领域的进一步发展提供连贯且坚实的基础参考。现有文献的系统性总结可访问:https://github.com/worldbench/survey