PRIX : Apprendre à planifier à partir de pixels bruts pour le pilotage autonome en boucle complète

Bien que les modèles d'automatisation de conduite en boucle fermée (end-to-end) montrent des résultats prometteurs, leur déploiement pratique est souvent entravé par la taille importante des modèles, une dépendance aux capteurs LiDAR coûteux et des représentations de caractéristiques en Bird's Eye View (BEV) intensives en calcul. Cela limite leur évolutivité, notamment pour les véhicules de marché de masse équipés uniquement de caméras. Pour relever ces défis, nous proposons PRIX (Plan from Raw Pixels). Notre architecture novatrice et efficace pour la conduite en boucle fermée fonctionne uniquement avec des données de caméra, sans représentation explicite en BEV et sans nécessiter de LiDAR. PRIX utilise un extracteur de caractéristiques visuelles associé à une tête de planification générative pour prédire directement des trajectoires sûres à partir d'entrées brutes de pixels. Un composant central de notre architecture est le module Context-aware Recalibration Transformer (CaRT), un nouveau module conçu pour améliorer efficacement les caractéristiques visuelles de plusieurs niveaux, permettant ainsi une planification plus robuste. Nous démontrons, à travers des expériences approfondies, que PRIX atteint des performances de pointe sur les benchmarks NavSim et nuScenes, tout en égalant les capacités des planificateurs multimodaux basés sur la diffusion, mais avec une efficacité bien supérieure en termes de vitesse d'inférence et de taille du modèle, ce qui en fait une solution pratique pour un déploiement en environnement réel. Notre travail est open-source et le code sera disponible à l'adresse https://maxiuw.github.io/prix.