Command Palette
Search for a command to run...
OmniDrive : Un jeu de données vision-langue holistique pour la conduite autonome avec raisonnement contre-factuel
Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

Résumé
Les progrès réalisés dans les modèles vision-langage (VLMs) ont suscité un intérêt croissant pour la conduite autonome, afin d'exploiter leurs capacités de raisonnement robustes. Cependant, l'extension de ces capacités du domaine 2D à une compréhension complète en 3D est essentielle pour les applications réelles. Pour relever ce défi, nous proposons OmniDrive, un ensemble de données vision-langage holistique qui aligne les modèles d'agents avec des tâches de conduite en 3D grâce au raisonnement contre-factuel. Cette approche améliore la prise de décision en évaluant des scénarios potentiels et leurs résultats, similaire au processus par lequel les conducteurs humains envisagent des actions alternatives. Notre processus d'annotation de données synthétiques basé sur le raisonnement contre-factuel génère des ensembles de données à grande échelle et de haute qualité, offrant des signaux de supervision plus denses qui relient les trajectoires de planification et le raisonnement basé sur le langage. De plus, nous explorons deux cadres avancés d'OmniDrive-Agent, nommément Omni-L et Omni-Q, pour évaluer l'importance de l'alignement vision-langage par rapport à la perception en 3D, révélant des insights cruciaux pour la conception d'agents LLM efficaces. Des améliorations significatives sur le benchmark Q&A DriveLM et la planification en boucle ouverte nuScenes démontrent l'efficacité de notre ensemble de données et de nos méthodes.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.