
摘要
我们提出 WorldGen,一个能够直接从文本提示自动生成大规模、可交互3D世界的新系统。该方法将自然语言描述转化为可通行、完全贴图的环境,用户可立即在标准游戏引擎中探索或编辑这些场景。WorldGen 通过融合大语言模型(LLM)驱动的场景布局推理、程序化生成、基于扩散模型的3D生成,以及面向物体的场景分解技术,弥合了创作意图与功能性虚拟空间之间的鸿沟,使创作者无需手动建模或具备专业的3D技能,即可设计出结构连贯、可导航的虚拟世界。该系统具备完全模块化架构,支持对布局、尺度与风格的细粒度控制,生成的世界在几何上保持一致,视觉表现丰富,并能在实时渲染中高效运行。本研究标志着大规模、可访问的生成式世界构建迈出了重要一步,推动了3D生成式人工智能在游戏、仿真及沉浸式社交环境等领域的前沿发展。