HyperAIHyperAI

Command Palette

Search for a command to run...

OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

Résumé

Les progrès réalisés dans les modèles vision-langage (VLMs) ont suscité un intérêt croissant pour la conduite autonome, afin d'exploiter leurs capacités de raisonnement robustes. Cependant, l'extension de ces capacités du domaine 2D à une compréhension complète en 3D est essentielle pour les applications réelles. Pour relever ce défi, nous proposons OmniDrive, un ensemble de données vision-langage holistique qui aligne les modèles d'agents avec des tâches de conduite en 3D grâce au raisonnement contre-factuel. Cette approche améliore la prise de décision en évaluant des scénarios potentiels et leurs résultats, similaire au processus par lequel les conducteurs humains envisagent des actions alternatives. Notre processus d'annotation de données synthétiques basé sur le raisonnement contre-factuel génère des ensembles de données à grande échelle et de haute qualité, offrant des signaux de supervision plus denses qui relient les trajectoires de planification et le raisonnement basé sur le langage. De plus, nous explorons deux cadres avancés d'OmniDrive-Agent, nommément Omni-L et Omni-Q, pour évaluer l'importance de l'alignement vision-langage par rapport à la perception en 3D, révélant des insights cruciaux pour la conception d'agents LLM efficaces. Des améliorations significatives sur le benchmark Q&A DriveLM et la planification en boucle ouverte nuScenes démontrent l'efficacité de notre ensemble de données et de nos méthodes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel | Articles | HyperAI