Command Palette

Search for a command to run...

4 个月前

OmniDrive:一种包含反事实推理的自动驾驶综合视觉-语言数据集

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

OmniDrive:一种包含反事实推理的自动驾驶综合视觉-语言数据集

摘要

视觉-语言模型(VLMs)的进展引发了对自动驾驶领域日益浓厚的兴趣,以利用其强大的推理能力。然而,将这些能力从二维扩展到全面的三维理解对于实际应用至关重要。为了解决这一挑战,我们提出了OmniDrive,这是一个综合性的视觉-语言数据集,通过反事实推理将代理模型与三维驾驶任务对齐。这种方法通过评估潜在情景及其结果来增强决策制定,类似于人类驾驶员在考虑替代行动时的做法。我们的基于反事实的合成数据标注过程生成了大规模、高质量的数据集,提供了更密集的监督信号,从而弥合了规划轨迹与基于语言的推理之间的差距。此外,我们探索了两种先进的OmniDrive代理框架,即Omni-L和Omni-Q,以评估视觉-语言对齐与三维感知的重要性,揭示了设计有效LLM代理的关键见解。在DriveLM问答基准测试和nuScenes开环规划中的显著改进证明了我们数据集和方法的有效性。

代码仓库

nvlabs/omnidrive
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OmniDrive:一种包含反事实推理的自动驾驶综合视觉-语言数据集 | 论文 | HyperAI超神经