17 小时前

摘要

世界模型是自动驾驶领域的关键技术，其通过模拟环境动态来辅助决策。然而，现有的方法主要聚焦于未来场景的生成，往往忽视了对三维场景的全面理解。相反，尽管大语言模型（LLM）展现了卓越的推理能力，却缺乏预测未来几何演化的能力，导致语义解释与物理模拟之间存在显著差异。为弥合这一差距，我们提出了 HERMES++，这是一种统一的自动驾驶世界模型，将三维场景理解与未来几何预测整合到单一框架中。我们的方法通过协同设计解决了这些任务的不同需求。首先，鸟瞰图（BEV）表示法将多视角空间信息整合为与 LLM 兼容的结构。其次，我们引入了由 LLM 增强的世界查询（world queries），以促进从理解分支进行知识迁移。第三，设计了“当前-未来链接”（Current-to-Future Link）以桥接时间间隔，使几何演化基于语义上下文进行条件生成。最后，为了确保结构完整性，我们采用联合几何优化策略，将显式几何约束与隐式潜在正则化相结合，使内部表示与几何感知先验保持一致。在多个基准测试上的广泛评估验证了该方法的有效性。HERMES++ 表现出色，在未来点云预测和三维场景理解任务中均优于专用模型。模型和代码将在 https://github.com/H-EmbodVis/HERMESV2 公开发布。

源 PDF 查看代码