HyperAI
il y a 19 heures

Une revue des modèles Vision-Langage-Action pour la conduite autonome

Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong
Une revue des modèles Vision-Langage-Action pour la conduite autonome
Résumé

Les progrès rapides des grands modèles langagiers multimodaux (MLLM) ont ouvert la voie aux paradigmes Vision-Langage-Action (VLA), qui intègrent la perception visuelle, la compréhension du langage naturel et le contrôle au sein d'une seule politique. Les chercheurs dans le domaine de la conduite autonome s'emploient activement à adapter ces méthodes au secteur automobile. Ces modèles promettent des véhicules autonomes capables d'interpréter des instructions de haut niveau, de raisonner sur des scénarios de circulation complexes et de prendre leurs propres décisions. Cependant, la littérature reste fragmentée et se développe rapidement. Cette revue offre une première vue d'ensemble complète des VLA pour la Conduite Autonome (VLA4AD). Nous (i) formalisons les éléments architecturaux communs aux travaux récents, (ii) retraçons l'évolution depuis les premiers modèles explicatifs jusqu'aux modèles VLA centrés sur le raisonnement, et (iii) comparons plus de 20 modèles représentatifs en fonction des progrès réalisés par les VLA dans le domaine de la conduite autonome. Nous consolidons également les jeux de données et les benchmarks existants, en mettant en lumière les protocoles qui mesurent conjointement la sécurité routière, la précision et la qualité des explications. Enfin, nous détaillons les défis ouverts - robustesse, efficacité en temps réel et vérification formelle - et esquissons les orientations futures des VLA4AD. Cette revue fournit une référence concise mais complète pour faire progresser les véhicules autonomes socialement alignés et interprétables. Le dépôt GitHub est disponible à l'adresse \href{this https URL}{SicongJiang/Awesome-VLA4AD}.