Transformer Rencontre la Convolution : Un Réseau d'Attention Bilatérale pour la Segmentations Sémantique d'Images Urbaines à Très Haute Résolution

La segmentation sémantique à partir d’images d’scènes urbaines à très haute résolution (VFR, Very Fine Resolution) joue un rôle crucial dans de nombreux domaines d’application, tels que la conduite autonome, la classification de la couverture du sol et la planification urbaine, entre autres. Toutefois, la grande quantité de détails présents dans les images VFR, en particulier les variations importantes d’échelle et d’apparence des objets, restreignent sévèrement le potentiel des approches actuelles basées sur l’apprentissage profond. La résolution de ces défis représente un domaine de recherche prometteur au sein de la communauté du télédétection, ouvrant la voie à l’analyse des motifs paysagers à l’échelle de la scène et à la prise de décision. Dans cet article, nous proposons un réseau à conscience bilatérale (BANet), comprenant un chemin de dépendance et un chemin de texture, conçu pour capturer pleinement les relations à longue portée et les détails fins présents dans les images VFR. Plus précisément, le chemin de dépendance repose sur ResT, un nouveau noyau Transformer à attention multi-têtes efficace en mémoire, tandis que le chemin de texture est construit à partir d’opérations de convolution empilées. En outre, en utilisant un mécanisme d’attention linéaire, un module d’agrégation de caractéristiques est conçu pour fusionner efficacement les caractéristiques de dépendance et les caractéristiques de texture. Des expérimentations étendues menées sur trois grands jeux de données d’images urbaines à grande échelle — à savoir le jeu de données ISPRS Vaihingen, le jeu de données ISPRS Potsdam et le jeu de données UAVid — démontrent l’efficacité de notre BANet. En particulier, un score mIoU de 64,6 % est atteint sur le jeu de données UAVid. Le code est disponible à l’adresse suivante : https://github.com/WangLibo1995/GeoSeg.