Command Palette
Search for a command to run...
Alpamayo-R1 : Relever le défi du raisonnement et de la prédiction d'action pour une conduite autonome généralisable dans la queue longue
Alpamayo-R1 : Relever le défi du raisonnement et de la prédiction d'action pour une conduite autonome généralisable dans la queue longue
Abstract
Les architectures bout-en-bout entraînées par apprentissage par imitation ont permis des avancées significatives dans le domaine de la conduite autonome grâce à l’augmentation de la taille des modèles et de la quantité de données, mais leur performance reste fragile dans des scénarios critiques pour la sécurité, caractérisés par des situations long-tail où la supervision est rare et la compréhension causale limitée. Pour remédier à ce problème, nous introduisons Alpamayo-R1 (AR1), un modèle vision-langage-action (VLA) qui intègre un raisonnement en chaîne de causalité à la planification de trajectoire afin d’améliorer la prise de décision dans des scénarios de conduite complexes. Notre approche repose sur trois innovations clés : (1) le jeu de données Chain of Causation (CoC), construit via un pipeline hybride d’auto-étiquetage et d’intervention humaine, produisant des traces de raisonnement fondées sur les décisions et liées causalement, alignées avec les comportements de conduite ; (2) une architecture VLA modulaire combinant Cosmos-Reason, un modèle vision-langage pré-entraîné pour des applications d’intelligence physique, avec un décodeur de trajectoire basé sur la diffusion, capable de générer en temps réel des plans dynamiquement réalisables ; (3) une stratégie d’entraînement en plusieurs étapes utilisant un fine-tuning supervisé pour activer le raisonnement, et l’apprentissage par renforcement (RL) pour optimiser la qualité du raisonnement grâce à un retour d’évaluation fourni par un grand modèle de raisonnement, tout en assurant une cohérence entre raisonnement et action. Les évaluations montrent qu’AR1 atteint une amélioration allant jusqu’à 12 % en précision de planification sur des cas complexes par rapport à une base de référence ne considérant que les trajectoires, avec une réduction de 35 % du taux de sortie de route et de 25 % du taux d’encadrement rapproché dans une simulation en boucle fermée. L’entraînement post-RL améliore la qualité du raisonnement de 45 %, selon une critique fournie par un grand modèle de raisonnement, et la cohérence raisonnement-action de 37 %. L’augmentation de la taille du modèle de 0,5 milliard à 7 milliards de paramètres se traduit par des améliorations cohérentes. Des tests sur véhicule confirment des performances en temps réel (latence de 99 ms) et un déploiement réussi en milieu urbain. En reliant un raisonnement interprétable à un contrôle précis, AR1 démontre une voie concrète vers la conduite autonome de niveau 4. Nous prévoyons de rendre disponibles, dans une mise à jour future, les modèles AR1 ainsi qu’un sous-ensemble du jeu de données CoC.