腾讯混元推出HunyuanWorld-Voyager:基于相机轨迹的实时RGBD视频生成与3D重建新范式
HunyuanWorld-Voyager 是腾讯混元团队推出的一款基于相机轨迹控制的交互式RGB-D视频生成模型,支持实时3D重建。该模型能够根据单张图像和用户自定义的相机运动路径,生成具有世界一致性的3D点云序列视频,实现对虚拟或现实场景的探索式动态呈现。 Voyager采用两大核心技术:一是世界一致的视频扩散框架,联合生成对齐的RGB与深度视频序列,确保场景全局连贯性;二是长程世界探索机制,通过高效的场景缓存、点云裁剪和自回归推理,实现上下文感知的连续场景扩展。为训练该模型,团队构建了可扩展的数据引擎,利用视频重建流水线自动完成相机位姿估计与度量深度预测,无需人工3D标注,从而大规模采集包含真实世界拍摄与虚幻引擎合成的视频数据,累计超过10万段。 在WorldScore基准测试中,HunyuanWorld-Voyager在整体得分、相机控制、物体控制、内容对齐、3D一致性、光照一致性和风格一致性等维度均表现领先,综合得分达到77.62,位居第一。 模型支持多种相机路径输入,可在单卡(需60GB显存)或多GPU集群上运行。通过xDiT并行推理框架,可在8张H20 GPU上实现高达6.69倍的加速,生成512×768分辨率、49帧、50步的视频仅需288秒。 项目提供Gradio演示界面,用户可上传图像并选择相机路径,输入文本提示后生成RGB-D视频。同时,相关数据构建工具也已开源,便于后续研究与训练。 该工作由腾讯混元团队发布,论文已提交至arXiv。如用于研究,请引用以下文献: Huang T., et al. Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation. arXiv:2506.04225, 2025。 团队感谢混元世界、混元3D-2、混元视频-I2V等项目,以及VGGT、MoGE、Metric3D等开源社区的支持。