WorldGen:一键生成沉浸式三维世界的文本驱动革命
近日,一项名为WorldGen的前沿研究发布,展示了从文本生成沉浸式可交互3D世界的技术突破。用户只需输入一句简单提示,如“卡通风格的中世纪村庄”或“火星上的科幻基地站”,系统即可在几分钟内生成一个风格统一、几何合理、可自由探索的完整3D虚拟世界。 与以往仅基于单一视角生成局部场景的技术不同,WorldGen采用端到端架构,融合了程序化推理、基于扩散模型的3D生成以及物体感知的场景分解技术。整个流程包含多个阶段:从初始场景规划、程序化粗略布局、导航网格提取,到参考图像生成、图像到3D的重建、部件分割与纹理生成,再到最终的几何优化与视觉增强。这一系列步骤确保生成的世界在50米×50米范围内保持高度一致的视觉风格与空间连贯性,避免出现风格错乱或结构断裂的问题。 相比现有方法在远离中心视角时迅速劣化的缺陷,WorldGen能够生成更大尺度、完整且高质量的可交互场景,未来还将进一步扩展规模并降低生成延迟。尽管目前仍处于研究阶段,尚未向开发者开放,但生成的内容已兼容Unity和Unreal等主流游戏引擎,无需额外转换或渲染管线。 这项技术有望大幅降低3D内容创作的时间与成本门槛,推动虚拟世界构建向“零代码”时代迈进。它不仅是游戏、仿真和沉浸式社交场景的重要工具,也呼应了Connect大会上提出的愿景:未来任何人都能仅凭文字描述,轻松构建属于自己的完整虚拟世界。 该研究由Dilin Wang、Hyunyoung Jung、Tom Monnier、Kihyuk Sohn等团队成员共同完成,项目负责人是Andrea Vedaldi。
