Command Palette
Search for a command to run...
Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

摘要
视觉-语言模型(VLMs)的进展引发了对自动驾驶领域日益浓厚的兴趣,以利用其强大的推理能力。然而,将这些能力从二维扩展到全面的三维理解对于实际应用至关重要。为了解决这一挑战,我们提出了OmniDrive,这是一个综合性的视觉-语言数据集,通过反事实推理将代理模型与三维驾驶任务对齐。这种方法通过评估潜在情景及其结果来增强决策制定,类似于人类驾驶员在考虑替代行动时的做法。我们的基于反事实的合成数据标注过程生成了大规模、高质量的数据集,提供了更密集的监督信号,从而弥合了规划轨迹与基于语言的推理之间的差距。此外,我们探索了两种先进的OmniDrive代理框架,即Omni-L和Omni-Q,以评估视觉-语言对齐与三维感知的重要性,揭示了设计有效LLM代理的关键见解。在DriveLM问答基准测试和nuScenes开环规划中的显著改进证明了我们数据集和方法的有效性。
代码仓库
nvlabs/omnidrive
官方
pytorch
GitHub 中提及