HyperAI超神经

摘要

在本技术报告中，我们介绍了CarLLaVA，这是一种为CARLA自动驾驶挑战赛2.0开发的视觉语言模型（VLM），用于自动驾驶。CarLLaVA采用了LLaVA VLM的视觉编码器和LLaMA架构作为主干，仅通过摄像头输入且无需复杂或昂贵的标签，实现了最先进的闭环驾驶性能。此外，我们展示了初步结果，即在驾驶输出的同时预测语言评论。CarLLaVA使用了一种半解耦的输出表示方法，包括路径预测和航路点（waypoints），从而在横向控制上利用路径的优势，在纵向控制上利用航路点的优势。我们提出了一种高效的训练方案，可以在大型驾驶数据集上进行训练而不会在简单、平凡的数据上浪费计算资源。CarLLaVA在CARLA自动驾驶挑战赛2.0的传感器赛道中排名第一，比之前的最先进水平提高了458%，比同期最佳提交方案提高了32.6%。

摘要

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

摘要

用 AI 构建 AI

HyperAI Newsletters

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

摘要

用 AI 构建 AI

HyperAI Newsletters

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CarLLaVA：仅使用摄像头的闭环驾驶视觉语言模型

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CarLLaVA：仅使用摄像头的闭环驾驶视觉语言模型

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CarLLaVA：仅使用摄像头的闭环驾驶视觉语言模型

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

摘要

用 AI 构建 AI

HyperAI Newsletters