7 个月前

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

摘要

视觉-语言模型（VLMs）的进展引发了对自动驾驶领域日益浓厚的兴趣，以利用其强大的推理能力。然而，将这些能力从二维扩展到全面的三维理解对于实际应用至关重要。为了解决这一挑战，我们提出了OmniDrive，这是一个综合性的视觉-语言数据集，通过反事实推理将代理模型与三维驾驶任务对齐。这种方法通过评估潜在情景及其结果来增强决策制定，类似于人类驾驶员在考虑替代行动时的做法。我们的基于反事实的合成数据标注过程生成了大规模、高质量的数据集，提供了更密集的监督信号，从而弥合了规划轨迹与基于语言的推理之间的差距。此外，我们探索了两种先进的OmniDrive代理框架，即Omni-L和Omni-Q，以评估视觉-语言对齐与三维感知的重要性，揭示了设计有效LLM代理的关键见解。在DriveLM问答基准测试和nuScenes开环规划中的显著改进证明了我们数据集和方法的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

摘要

视觉-语言模型（VLMs）的进展引发了对自动驾驶领域日益浓厚的兴趣，以利用其强大的推理能力。然而，将这些能力从二维扩展到全面的三维理解对于实际应用至关重要。为了解决这一挑战，我们提出了OmniDrive，这是一个综合性的视觉-语言数据集，通过反事实推理将代理模型与三维驾驶任务对齐。这种方法通过评估潜在情景及其结果来增强决策制定，类似于人类驾驶员在考虑替代行动时的做法。我们的基于反事实的合成数据标注过程生成了大规模、高质量的数据集，提供了更密集的监督信号，从而弥合了规划轨迹与基于语言的推理之间的差距。此外，我们探索了两种先进的OmniDrive代理框架，即Omni-L和Omni-Q，以评估视觉-语言对齐与三维感知的重要性，揭示了设计有效LLM代理的关键见解。在DriveLM问答基准测试和nuScenes开环规划中的显著改进证明了我们数据集和方法的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供