HyperAI

近日，一项名为WorldGen的前沿研究发布，展示了从文本生成沉浸式可交互3D世界的技术突破。用户只需输入一句简单提示，如“卡通风格的中世纪村庄”或“火星上的科幻基地站”，系统即可在几分钟内生成一个风格统一、几何合理、可自由探索的完整3D虚拟世界。与以往仅基于单一视角生成局部场景的技术不同，WorldGen采用端到端架构，融合了程序化推理、基于扩散模型的3D生成以及物体感知的场景分解技术。整个流程包含多个阶段：从初始场景规划、程序化粗略布局、导航网格提取，到参考图像生成、图像到3D的重建、部件分割与纹理生成，再到最终的几何优化与视觉增强。这一系列步骤确保生成的世界在50米×50米范围内保持高度一致的视觉风格与空间连贯性，避免出现风格错乱或结构断裂的问题。相比现有方法在远离中心视角时迅速劣化的缺陷，WorldGen能够生成更大尺度、完整且高质量的可交互场景，未来还将进一步扩展规模并降低生成延迟。尽管目前仍处于研究阶段，尚未向开发者开放，但生成的内容已兼容Unity和Unreal等主流游戏引擎，无需额外转换或渲染管线。这项技术有望大幅降低3D内容创作的时间与成本门槛，推动虚拟世界构建向“零代码”时代迈进。它不仅是游戏、仿真和沉浸式社交场景的重要工具，也呼应了Connect大会上提出的愿景：未来任何人都能仅凭文字描述，轻松构建属于自己的完整虚拟世界。该研究由Dilin Wang、Hyunyoung Jung、Tom Monnier、Kihyuk Sohn等团队成员共同完成，项目负责人是Andrea Vedaldi。

相关链接

相关链接

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

Command Palette

WorldGen：一键生成沉浸式三维世界的文本驱动革命

相关链接

Command Palette

WorldGen：一键生成沉浸式三维世界的文本驱动革命

相关链接

Command Palette

WorldGen：一键生成沉浸式三维世界的文本驱动革命

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA