a day ago
HunyuanWorld 1.0:从文本或像素生成沉浸式、可探索且可交互的3D世界
HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, et al

摘要
从文本或图像生成沉浸式且可交互的三维世界,仍是计算机视觉与图形学领域的一项根本性挑战。现有的世界生成方法大致可分为两类:基于视频的方法虽能提供丰富的多样性,但在三维一致性与渲染效率方面存在不足;而基于三维的方法虽能保证几何一致性,却受限于训练数据稀少以及表示方式内存效率低下等问题。为克服上述局限,我们提出 HunyuanWorld 1.0——一种创新框架,能够融合两类方法的优势,实现从文本与图像条件出发,生成沉浸式、可探索且可交互的三维场景。本方法具备三大核心优势:1)通过全景世界代理(panoramic world proxies)实现360°沉浸式体验;2)支持网格导出,与现有计算机图形学工作流无缝兼容;3)采用解耦的物体表示,增强交互性。该框架的核心是一种语义分层的三维网格表示,利用全景图像作为360°世界代理,实现语义感知的世界分解与重建,从而生成多样化且结构合理的三维世界。大量实验表明,我们的方法在生成连贯、可探索、可交互的三维世界方面达到了当前最优性能,并在虚拟现实、物理仿真、游戏开发及交互式内容创作等多个领域展现出广泛的应用潜力。