DSAT-Net: Dual Spatial Attention Transformer zur Gebäudeextraktion aus Luftbildern
Sowohl lokale als auch globale Kontextabhängigkeiten sind entscheidend für die Gebäudeextraktion aus Fernerkundungsbildern (Remote Sensing, RS). Convolutional Neural Networks (CNN) sind hervorragend darin, lokale räumliche Details zu extrahieren, verfügen jedoch über keine Fähigkeit, langreichweitige Abhängigkeiten zu modellieren. In den letzten Jahren haben Vision Transformers (ViT) großes Potenzial bei der Modellierung globaler Kontextabhängigkeiten gezeigt. Allerdings sind sie oft mit erheblichen Rechenkosten verbunden, und bei der Merkmalsextraktion gehen räumliche Details nicht vollständig verloren. Um die Vorteile von CNNs und ViTs optimal zu nutzen, schlagen wir DSAT-Net vor, ein Modell, das beide Architekturen in einer einzigen Struktur kombiniert. In DSAT-Net entwerfen wir einen effizienten Dual Spatial Attention Transformer (DSAFormer), um die Defizite des herkömmlichen ViT zu beheben. Der DSAFormer verfügt über eine doppelte Aufmerksamkeitsstruktur, die sich gegenseitig ergänzt: Die globale Aufmerksamkeitspfad (GAP) führt eine große Skalen-Downsampling-Operation der Merkmalskarten vor der Berechnung der globalen Selbstaufmerksamkeit durch, um die Rechenkosten zu reduzieren. Der lokale Aufmerksamkeitspfad (LAP) verwendet effiziente Streifenfaltung (stripe convolution), um lokale Aufmerksamkeit zu generieren, wodurch der Informationsverlust durch die Downsampling-Operation im GAP verringert und die räumlichen Details ergänzt werden. Zudem entwerfen wir ein Merkmalsverfeinerungsmodul namens Channel Mixing Feature Refine Module (CM-FRM), um tiefere und höhere Merkmale zu fusionieren. Unser Modell erreicht wettbewerbsfähige Ergebnisse auf drei öffentlichen Datensätzen zur Gebäudeextraktion. Der Quellcode wird unter folgender URL verfügbar sein: https://github.com/stdcoutzrh/BuildingExtraction.