HyperAIHyperAI
il y a 2 mois

CarLLaVA : Modèles de vision et de langage pour la conduite en boucle fermée uniquement avec caméra

Katrin Renz; Long Chen; Ana-Maria Marcu; Jan Hünermann; Benoit Hanotte; Alice Karnsund; Jamie Shotton; Elahe Arani; Oleg Sinavski
CarLLaVA : Modèles de vision et de langage pour la conduite en boucle fermée uniquement avec caméra
Résumé

Dans ce rapport technique, nous présentons CarLLaVA, un modèle de vision-langage (VLM) pour la conduite autonome, développé dans le cadre du CARLA Autonomous Driving Challenge 2.0. CarLLaVA utilise l'encodeur visuel du VLM LLaVA et l'architecture LLaMA comme base, atteignant des performances de conduite en boucle fermée d'avant-garde avec uniquement une entrée caméra et sans nécessiter des étiquettes complexes ou coûteuses. De plus, nous montrons des résultats préliminaires sur la prédiction de commentaires linguistiques en parallèle de la sortie de conduite. CarLLaVA utilise une représentation de sortie semi-décorrélée combinant les prédictions de trajectoire et les points d'intérêt (waypoints), tirant parti des avantages de la trajectoire pour une meilleure commande latérale et des points d'intérêt pour une meilleure commande longitudinale. Nous proposons une recette d'entraînement efficace permettant d'entraîner sur de grands ensembles de données de conduite sans gaspiller des ressources informatiques sur des données faciles et triviales. CarLLaVA occupe la première place dans le classement du capteur du CARLA Autonomous Driving Challenge 2.0, surpassant l'état de l'art précédent de 458 % et la meilleure soumission concurrente actuelle de 32,6 %.

CarLLaVA : Modèles de vision et de langage pour la conduite en boucle fermée uniquement avec caméra | Articles de recherche récents | HyperAI