Transformateur de fusion multimodale pour la conduite autonome bout-en-bout

Comment intégrer les représentations provenant de capteurs complémentaires pour la conduite autonome ? La fusion de capteurs basée sur la géométrie a fait preuve d’un grand potentiel pour des tâches de perception telles que la détection d’objets et la prévision du mouvement. Toutefois, pour la tâche réelle de conduite, le contexte global de la scène 3D est essentiel : par exemple, un changement d’état d’un feu tricolore peut influencer le comportement d’un véhicule géométriquement éloigné de ce feu. La géométrie seule peut donc s’avérer insuffisante pour une fusion efficace des représentations dans les modèles de conduite end-to-end. Dans ce travail, nous démontrons que les politiques d’apprentissage par imitation fondées sur les méthodes existantes de fusion de capteurs présentent des performances insuffisantes en présence d’une forte densité d’agents dynamiques et de scénarios complexes, nécessitant une raison contextualisée globale, comme la gestion du trafic venant de plusieurs directions à des intersections non régulées. Par conséquent, nous proposons TransFuser, un nouveau transformateur de fusion multimodale, conçu pour intégrer les représentations d’images et de LiDAR à l’aide de mécanismes d’attention. Nous validons expérimentalement l’efficacité de notre approche dans des environnements urbains impliquant des scénarios complexes, à l’aide du simulateur de conduite urbaine CARLA. Notre méthode atteint des performances de conduite de pointe tout en réduisant les collisions de 76 % par rapport à la fusion basée sur la géométrie.