DSAT-Net : Transformateur à double attention spatiale pour l’extraction de bâtiments à partir d’images aériennes
Les dépendances contextuelles locales et globales sont essentielles pour l’extraction d’objets à partir d’images de télédétection (RS). Les réseaux de neurones convolutifs (CNN) sont particulièrement efficaces pour extraire des détails spatiaux locaux, mais ils manquent de capacité à modéliser les dépendances à longue portée. Ces dernières années, les Vision Transformer (ViT) ont montré un grand potentiel pour capturer les dépendances contextuelles globales. Toutefois, ils entraînent généralement un coût computationnel élevé, et les détails spatiaux ne sont pas entièrement préservés durant le processus d’extraction de caractéristiques. Afin de maximiser les avantages des CNN et des ViT, nous proposons DSAT-Net, un modèle intégrant les deux approches dans une même architecture. Dans DSAT-Net, nous avons conçu un Transformer à double attention efficace, appelé DSAFormer, afin de pallier les limites des ViT standards. Ce dernier repose sur une structure à double voie d’attention, complémentaire. Plus précisément, le chemin d’attention globale (GAP) effectue un échantillonnage à grande échelle des cartes de caractéristiques avant le calcul d’attention auto-associative globale, réduisant ainsi le coût computationnel. Le chemin d’attention locale (LAP) utilise une convolution en bande efficace pour générer une attention locale, ce qui atténue la perte d’information due à l’opération d’échantillonnage dans le GAP et permet de restaurer les détails spatiaux. En outre, nous avons conçu un module de raffinement de caractéristiques, nommé Channel Mixing Feature Refine Module (CM-FRM), destiné à fusionner les caractéristiques de basse et haute niveau. Notre modèle obtient des résultats compétitifs sur trois jeux de données publics d’extraction de bâtiments. Le code sera disponible à l’adresse suivante : https://github.com/stdcoutzrh/BuildingExtraction.