SDSC-UNet : Modèle en forme de U basé sur ViT à connexions sautées doubles pour l'extraction de bâtiments
Grâce à une interaction efficace des informations mondiales, les vision-transformers (ViTs) sont largement utilisés dans la tâche d’extraction de bâtiments. Toutefois, les bâtiments présents dans les images de télédétection (RS) présentent généralement des tailles très variables. Les modèles de segmentation basés sur le ViT et dominants pour les images RS reposent principalement sur le Swin Transformer, qui ne prend pas en compte les informations multi-échelles à l’intérieur du bloc ViT. De plus, ces modèles ne connectent qu’à la sortie complète du bloc encodeur ViT au décodeur, négligeant ainsi les informations de similarité présentes dans les cartes d’attention à l’intérieur du bloc encodeur ViT, et ne parviennent pas à fournir de meilleures dépendances globales au décodeur. Pour résoudre ces problèmes, nous proposons un nouveau modèle appelé Shunted Transformer, qui permet au modèle de capturer des informations multi-échelles de manière interne tout en établissant pleinement des dépendances globales, afin de construire un modèle en forme de U entièrement basé sur le ViT pour l’extraction de bâtiments. En outre, contrairement à la structure de connexion simple-saut (single-skip-connection) traditionnelle des méthodes en forme de U, nous introduisons une nouvelle structure de connexion double-saut (dual skip connection) à l’intérieur du modèle. Cette structure transmet simultanément les cartes d’attention à l’intérieur du bloc encodeur ViT ainsi que sa sortie complète vers le décodeur, permettant ainsi d’exploiter pleinement les informations contenues dans le bloc encodeur ViT et de fournir une meilleure guidance par des informations globales au décodeur. Par conséquent, notre modèle est nommé Shunted Dual Skip Connection UNet (SDSC-UNet). Nous avons également conçu un module de fusion de caractéristiques appelé Dual Skip Upsample Fusion Module (DSUFM) pour agréger efficacement les informations. Notre modèle atteint une performance de pointe (SOTA) de 83,02 % d’IoU sur le dataset Inria Aerial Image Labeling. Le code sera disponible à l’adresse suivante : https://github.com/stdcoutzrh/BuildingExtraction.