Transformateurs multi-vues pour la segmentation sémantique en temps réel de la vue cartographique

Nous présentons les transformateurs multi-vues, un modèle efficace basé sur l'attention pour la segmentation sémantique en vue de plan à partir de plusieurs caméras. Notre architecture apprend implicitement une correspondance des vues individuelles des caméras vers une représentation canonique en vue de plan grâce à un mécanisme d'attention multi-vues prenant en compte les caméras. Chaque caméra utilise des plongements positionnels qui dépendent de sa calibration intrinsèque et extrinsèque. Ces plongements permettent à un transformateur d'apprendre la correspondance entre différentes vues sans jamais modéliser explicitement cette correspondance géométriquement. L'architecture comprend un encodeur d'image convolutif pour chaque vue et des couches de transformateurs multi-vues pour inférer une segmentation sémantique en vue de plan. Notre modèle est simple, facilement parallélisable et fonctionne en temps réel. L'architecture présentée atteint le niveau de l'état de l'art sur le jeu de données nuScenes, avec des vitesses d'inférence 4 fois plus rapides. Le code est disponible à l'adresse suivante : https://github.com/bradyz/cross_view_transformers.