Command Palette
Search for a command to run...
HERMES++:迈向统一的3D场景理解与生成驾驶世界模型
HERMES++:迈向统一的3D场景理解与生成驾驶世界模型
Xin Zhou Dingkang Liang Xiwu Chen Feiyang Tan Dingyuan Zhang Hengshuang Zhao Xiang Bai
摘要
世界模型是自动驾驶领域的关键技术,其通过模拟环境动态来辅助决策。然而,现有的方法主要聚焦于未来场景的生成,往往忽视了对三维场景的全面理解。相反,尽管大语言模型(LLM)展现了卓越的推理能力,却缺乏预测未来几何演化的能力,导致语义解释与物理模拟之间存在显著差异。为弥合这一差距,我们提出了 HERMES++,这是一种统一的自动驾驶世界模型,将三维场景理解与未来几何预测整合到单一框架中。我们的方法通过协同设计解决了这些任务的不同需求。首先,鸟瞰图(BEV)表示法将多视角空间信息整合为与 LLM 兼容的结构。其次,我们引入了由 LLM 增强的世界查询(world queries),以促进从理解分支进行知识迁移。第三,设计了“当前-未来链接”(Current-to-Future Link)以桥接时间间隔,使几何演化基于语义上下文进行条件生成。最后,为了确保结构完整性,我们采用联合几何优化策略,将显式几何约束与隐式潜在正则化相结合,使内部表示与几何感知先验保持一致。在多个基准测试上的广泛评估验证了该方法的有效性。HERMES++ 表现出色,在未来点云预测和三维场景理解任务中均优于专用模型。模型和代码将在 https://github.com/H-EmbodVis/HERMESV2 公开发布。