HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel

Résumé

Les progrès réalisés dans les modèles vision-langage (VLMs) ont suscité un intérêt croissant pour la conduite autonome, afin d'exploiter leurs capacités de raisonnement robustes. Cependant, l'extension de ces capacités du domaine 2D à une compréhension complète en 3D est essentielle pour les applications réelles. Pour relever ce défi, nous proposons OmniDrive, un ensemble de données vision-langage holistique qui aligne les modèles d'agents avec des tâches de conduite en 3D grâce au raisonnement contre-factuel. Cette approche améliore la prise de décision en évaluant des scénarios potentiels et leurs résultats, similaire au processus par lequel les conducteurs humains envisagent des actions alternatives. Notre processus d'annotation de données synthétiques basé sur le raisonnement contre-factuel génère des ensembles de données à grande échelle et de haute qualité, offrant des signaux de supervision plus denses qui relient les trajectoires de planification et le raisonnement basé sur le langage. De plus, nous explorons deux cadres avancés d'OmniDrive-Agent, nommément Omni-L et Omni-Q, pour évaluer l'importance de l'alignement vision-langage par rapport à la perception en 3D, révélant des insights cruciaux pour la conception d'agents LLM efficaces. Des améliorations significatives sur le benchmark Q&A DriveLM et la planification en boucle ouverte nuScenes démontrent l'efficacité de notre ensemble de données et de nos méthodes.

Dépôts de code

nvlabs/omnidrive
Officiel
pytorch
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel | Articles de recherche | HyperAI