HyperAIHyperAI
il y a 11 jours

UNetFormer : Un Transformer de type UNet pour une segmentation sémantique efficace des images d’scènes urbaines satellites

Libo Wang, Rui Li, Ce Zhang, Shenghui Fang, Chenxi Duan, Xiaoliang Meng, Peter M. Atkinson
UNetFormer : Un Transformer de type UNet pour une segmentation sémantique efficace des images d’scènes urbaines satellites
Résumé

La segmentation sémantique des images de scènes urbaines obtenues par télédétection est essentielle dans de nombreuses applications pratiques, telles que la cartographie de la couverture du sol, la détection des changements urbains, la protection de l’environnement et l’évaluation économique. Portée par les progrès rapides des technologies d’apprentissage profond, le réseau de neurones convolutif (CNN) a dominé la segmentation sémantique pendant de nombreuses années. Le CNN repose sur une représentation hiérarchique des caractéristiques, offrant une forte capacité d’extraction d’informations locales. Toutefois, la nature locale de la couche de convolution limite la capacité du réseau à capturer le contexte global. Récemment, en tant que sujet d’actualité majeur en vision par ordinateur, le Transformer a démontré un grand potentiel dans la modélisation des informations globales, améliorant significativement de nombreuses tâches liées à la vision, telles que la classification d’images, la détection d’objets, et notamment la segmentation sémantique. Dans cet article, nous proposons un décodeur basé sur le Transformer et construisons un modèle du type UNet inspiré du Transformer (UNetFormer) pour la segmentation en temps réel des scènes urbaines. Pour assurer une segmentation efficace, UNetFormer sélectionne ResNet18, un modèle léger, comme encodeur, et introduit un mécanisme d’attention global-local efficace dans le décodeur afin de modéliser à la fois les informations locales et globales. Des expériences étendues montrent que notre méthode non seulement est plus rapide, mais aussi atteint une précision supérieure par rapport aux modèles légers de pointe. Plus précisément, le UNetFormer proposé atteint des scores de mIoU respectifs de 67,8 % et 52,4 % sur les jeux de données UAVid et LoveDA, tout en atteignant une vitesse de déduction pouvant atteindre 322,4 FPS avec une entrée de taille 512×512 sur une seule GPU NVIDIA GeForce RTX 3090. Dans une exploration complémentaire, le décodeur basé sur le Transformer combiné à un encodeur Swin Transformer atteint également un résultat de pointe sur le jeu de données Vaihingen (91,3 % de F1 et 84,1 % de mIoU). Le code source sera librement disponible à l’adresse suivante : https://github.com/WangLibo1995/GeoSeg.