Pesez bien avant de conduire : Vers des décodeurs évolutifs pour la conduite autonome de bout en bout

La conduite autonome de bout en bout a connu des progrès impressionnants ces dernières années. Les méthodes existantes adoptent généralement le paradigme décomposé encodeur-décodeur, dans lequel l'encodeur extrait des caractéristiques cachées à partir des données brutes des capteurs, et le décodeur génère les trajectoires futures ou les actions du véhicule égo. Dans ce paradigme, l'encodeur n'a pas accès au comportement prévu de l'agent égo, laissant au décodeur la charge de repérer les zones critiques pour la sécurité dans un champ récepteur massif et d'en tirer des inférences sur les situations futures. Pire encore, le décodeur est souvent composé de plusieurs perceptrons multicouches simples (MLP) ou de GRUs, tandis que l'encodeur est soigneusement conçu (par exemple, une combinaison de ResNets lourds ou de Transformers). Une telle division déséquilibrée des ressources et des tâches entrave le processus d'apprentissage.Dans cette étude, nous visons à atténuer ce problème par deux principes : (1) utiliser pleinement la capacité de l'encodeur ; (2) augmenter la capacité du décodeur. Plus précisément, nous commençons par prédire une position et une action futures grossièrement granulaires basées sur les caractéristiques de l'encodeur. Ensuite, conditionnellement à cette position et à cette action, nous imaginons la scène future pour vérifier les ramifications si nous conduisons conformément. Nous récupérons également les caractéristiques de l'encodeur autour des coordonnées prédites afin d'obtenir des informations finement granulaires sur la région critique pour la sécurité. Enfin, en fonction de la prédiction future et des caractéristiques saillantes récupérées, nous affinons la position et l'action grossièrement granulaires en prédiction leur décalage par rapport à la vérité terrain. Le module d'affinement mentionné ci-dessus peut être empilé selon une architecture en cascade, ce qui étend la capacité du décodeur avec des connaissances spatiales et temporelles antérieures sur le futur conditionnel. Nous avons mené des expériences sur le simulateur CARLA et obtenu des performances de pointe dans les benchmarks en boucle fermée. Des études ablatives approfondies ont démontré l'efficacité de chaque module proposé.