Capture du contexte omni-portée pour la segmentation omnidirectionnelle

Les réseaux de convolution (ConvNets) se distinguent particulièrement dans la segmentation sémantique et sont devenus un composant essentiel pour la perception dans les véhicules autonomes. Les caméras omnidirectionnelles, offrant une vue exhaustive des scènes de rue, se révèlent parfaitement adaptées à ces systèmes. La plupart des modèles de segmentation conçus pour interpréter les environnements urbains fonctionnent sur des images à champ de vue (FoV) étroit, courantes. Lorsqu’on transfère ces modèles du domaine pour lequel ils ont été conçus vers une perception à 360 degrés, leur performance chute de manière drastique, par exemple de 30,0 points absolus (mIoU) sur des benchmarks établis. Pour combler l’écart en termes de champ de vue et de distribution structurelle entre ces domaines d’imagerie, nous introduisons les Réseaux d’Attention Concurrente Efficaces (ECANets), capables de capturer directement les dépendances à longue portée inhérentes aux images omnidirectionnelles. En plus des prioris contextuels appris par attention, capables de s’étendre sur des images de 360 degrés, nous améliorons l’entraînement du modèle en exploitant un apprentissage multi-source et omni-supervisé, tirant parti à la fois de données étiquetées de manière dense et de données non étiquetées provenant de plusieurs jeux de données. Afin de stimuler les progrès dans la segmentation d’images panoramiques, nous proposons et évaluons de manière exhaustive des modèles sur Wild PAnoramic Semantic Segmentation (WildPASS), un jeu de données conçu pour capturer des scènes diversifiées issues de toutes les régions du monde. Notre nouveau modèle, notre protocole d’entraînement et notre fusion de prédictions multi-source permettent d’atteindre de nouveaux records d’état de l’art en termes de performance (mIoU) sur les benchmarks publics PASS (60,2 %) et WildPASS récents (69,0 %).