BAEFormer : Transformateurs à interaction bidirectionnelle et précoce pour la segmentation sémantique en vue de dessus

La segmentation sémantique en vue d’oiseau (Bird’s Eye View, BEV) constitue une tâche essentielle dans le domaine du conduite autonome. Toutefois, les méthodes actuelles basées sur les Transformers rencontrent des difficultés pour transformer la vue perspective (Perspective View, PV) en vue d’oiseau en raison de leurs mécanismes d’interaction unidirectionnels et postérieurs. Pour résoudre ce problème, nous proposons un nouveau cadre de Transformers à interaction bidirectionnelle et précoce, nommé BAEFormer, comprenant (i) une chaîne de traitement PV-BEV à interaction précoce et (ii) un mécanisme d’attention croisée bidirectionnel. Par ailleurs, nous observons que la résolution des cartes de caractéristiques d’image dans le module d’attention croisée a un impact limité sur les performances finales. À la lumière de cette observation cruciale, nous proposons d’augmenter la taille des images d’entrée tout en sous-échantillonnant les caractéristiques d’images multi-vues pour l’interaction croisée, améliorant ainsi la précision tout en maintenant le coût computationnel maîtrisé. Notre méthode proposée pour la segmentation sémantique BEV atteint des performances de pointe dans le cadre d’une inférence en temps réel sur le jeu de données nuScenes, avec un mIoU de 38,9 à 45 FPS sur une seule GPU A100.