LaRa : Latents et Rayons pour la Segmentation Sémantique en Vue d'Oiseau Multi-Caméras

Les travaux récents dans le domaine de la conduite autonome ont largement adopté la carte sémantique en vue d'oiseau (BEV) comme représentation intermédiaire du monde. La prédiction en ligne de ces cartes BEV implique des opérations non triviales telles que l'extraction de données multicaméra, ainsi que leur fusion et leur projection dans une grille de vue aérienne commune. Cela est généralement réalisé par des opérations géométriques sujettes aux erreurs (par exemple, l'homographie ou la réprojection à partir de l'estimation de profondeur monoculaire) ou par un mappage direct dense coûteux entre les pixels d'image et les pixels BEV (par exemple, avec des MLP ou de l'attention). Dans ce travail, nous présentons « LaRa », un modèle efficace basé sur un encodeur-décodeur et des transformateurs pour la segmentation sémantique des véhicules à partir de plusieurs caméras. Notre approche utilise un système d'attention croisée pour agréger les informations provenant de plusieurs capteurs dans une collection compacte mais riche de représentations latentes. Après avoir été traitées par une série de blocs d'auto-attention, ces représentations latentes sont ensuite reprojetées dans l'espace BEV grâce à une deuxième attention croisée. Nous démontrons que notre modèle surpasse les meilleurs travaux précédents utilisant des transformateurs sur nuScenes. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/valeoai/LaRa