LatentVLA: nouveau modèle de raisonnement pour la conduite autonome
Les modèles d'intelligence artificielle pour la conduite autonome, comme AlpamayoR1, reposent souvent sur des ensembles de données massifs et annotés pour raisonner en langage naturel. Cependant, une telle approche peut être inefficace et lente pour des réactions immédiates. Face à ce défi, une nouvelle architecture nommée LatentVLA propose une alternative en effectuant le raisonnement dans un espace latent sans dépendre de données linguistiques. L'approche de LatentVLA s'oppose frontalement à celle de modèles nécessitant une préparation de données industrielle. Les auteurs soutiennent que les données brutes de conduite contiennent déjà la structure nécessaire pour l'entraînement et que le langage naturel introduit des biais et des inefficacités. Au lieu de générer des chaînes de raisonnement textuelles, le modèle apprend à prédire des actions latentes à partir de données non étiquetées. Cette méthode utilise un cadre auto-supervisé inspiré de LAPO, où un encodeur prédit un vecteur d'action continu à partir de deux images consécutives, et un décodeur reconstruit la suivante. Pour rendre cette représentation compatible avec les grands modèles de langage visuel (VLM), les vecteurs continus sont discrétisés via un auto-encodeur variationnel à quantification vectorielle (VQ-VAE). Un défi majeur de la conduite est de distinguer les actions du conducteur des dynamiques environnementales, comme un oiseau traversant la route. LatentVLA résout cela avec un encodeur à deux étapes. La première étape isole les dynamiques environnementales en se basant sur la trajectoire et l'état du véhicule. La seconde étape, en tenant compte de ces dynamiques fixes, force le modèle à encoder uniquement les actions du conducteur (actions égo-centrées). Ces actions latentes sont ensuite quantifiées et utilisées pour prédire l'image suivante. Sur la base de ces représentations apprises, un modèle Qwen2.5-VL est entraîné pour prédire la même séquence d'actions latentes que le système d'encodeur-décodeur. Une particularité notable de LatentVLA est l'utilisation d'un codebook très réduit de seize tokens d'action, contrairement à des centaines ou milliers de tokens dans d'autres systèmes. Cela permet au modèle de se concentrer sur des directives de haut niveau, comme « accélérer légèrement », plutôt que sur des angles de braquage précis, préservant ainsi les connaissances pré-entraînées du VLM. Pour atteindre les contraintes de temps réel lors du déploiement, l'équipe utilise un processus de distillation de connaissances. Un petit transformateur de décision de 50 millions de paramètres imite le comportement du grand modèle VLM de 3,8 milliards de paramètres. Un module de fusion intègre ensuite ces actions latentes dans des architectures autonomes existantes comme iPad ou Transfuser, permettant une interaction fluide entre la raison du VLM et la planification de l'agent. Évalué sur le jeu de données NavSim, qui comprend plus de 100 000 frames de simulations réalistes, LatentVLA obtient des résultats d'état de l'art, surpassant les architectures de bout en bout et basées sur des LLM. Cependant, les gains en performance sont modestes, avec une augmentation de 0,4 point sur la métrique de score de prévision de conducteur. Les auteurs soulignent que ces résultats proviennent de simulations en boucle ouverte non réactives, qui ne capturent pas pleinement la complexité de la conduite réelle où les actions des autres agents évoluent. Ils suggèrent que le raisonnement latent offrirait des bénéfices plus significatifs dans des environnements en boucle fermée plus réalistes, capables de tester la capacité du modèle à gérer des interactions dynamiques et à corriger les erreurs de trajectoire. En conclusion, LatentVLA démontre une voie prometteuse pour intégrer la raison des modèles de vision sans dépendre de données linguistiques coûteuses.
