HyperAIHyperAI
il y a 6 jours

GMF-Drive : Fusion Mamba à portes avec représentation BEV sensible à l'espace pour la conduite autonome bout-en-bout

Jian Wang, Chaokang Jiang, Haitao Xu
GMF-Drive : Fusion Mamba à portes avec représentation BEV sensible à l'espace pour la conduite autonome bout-en-bout
Résumé

Les modèles basés sur la diffusion redéfinissent l’état de l’art dans le pilotage autonome bout-en-bout, mais leurs performances sont de plus en plus entravées par leur dépendance à une fusion basée sur les transformateurs. Ces architectures rencontrent des limitations fondamentales : une complexité computationnelle quadratique limite l’utilisation de caractéristiques à haute résolution, tandis qu’un manque de priori spatial empêche une modélisation efficace de la structure intrinsèque des représentations Bird’s Eye View (BEV). Ce papier présente GMF-Drive (Gated Mamba Fusion for Driving), un cadre bout-en-bout qui surmonte ces défis grâce à deux innovations fondées sur des principes rigoureux. Premièrement, nous remplaçons la représentation LiDAR à base d’histogrammes, limitée en information, par une formulation par piliers enrichie géométriquement, codant des descripteurs de forme et des caractéristiques statistiques, tout en préservant des détails géométriques 3D essentiels. Deuxièmement, nous proposons une nouvelle architecture hiérarchique de fusion à mamba à portes (GM-Fusion), qui remplace le transformateur coûteux par un modèle d’état spatialment conscient et hautement efficace (SSM). Notre SSM central BEV-SSM exploite une séquençage directionnel et des mécanismes d’agrégation adaptative pour capturer des dépendances à longue portée avec une complexité linéaire, tout en respectant explicitement les propriétés spatiales spécifiques à la scène de conduite. Des expérimentations étendues sur le défi NAVSIM montrent que GMF-Drive atteint un nouvel état de l’art, surpassant significativement DiffusionDrive. Des études d’ablation complètes confirment l’efficacité de chaque composant, démontrant que des SSMs spécifiques à la tâche peuvent dépasser un transformateur généraliste en termes de performance et d’efficacité pour le pilotage autonome.

GMF-Drive : Fusion Mamba à portes avec représentation BEV sensible à l'espace pour la conduite autonome bout-en-bout | Articles de recherche récents | HyperAI