HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

DSAT-Net: Dual Spatial Attention Transformer zur Gebäudeextraktion aus Luftbildern

{Guixu Zhang Qian Zhang Zhechun Wan Renhe Zhang}

Abstract

Sowohl lokale als auch globale Kontextabhängigkeiten sind entscheidend für die Gebäudeextraktion aus Fernerkundungsbildern (Remote Sensing, RS). Convolutional Neural Networks (CNN) sind hervorragend darin, lokale räumliche Details zu extrahieren, verfügen jedoch über keine Fähigkeit, langreichweitige Abhängigkeiten zu modellieren. In den letzten Jahren haben Vision Transformers (ViT) großes Potenzial bei der Modellierung globaler Kontextabhängigkeiten gezeigt. Allerdings sind sie oft mit erheblichen Rechenkosten verbunden, und bei der Merkmalsextraktion gehen räumliche Details nicht vollständig verloren. Um die Vorteile von CNNs und ViTs optimal zu nutzen, schlagen wir DSAT-Net vor, ein Modell, das beide Architekturen in einer einzigen Struktur kombiniert. In DSAT-Net entwerfen wir einen effizienten Dual Spatial Attention Transformer (DSAFormer), um die Defizite des herkömmlichen ViT zu beheben. Der DSAFormer verfügt über eine doppelte Aufmerksamkeitsstruktur, die sich gegenseitig ergänzt: Die globale Aufmerksamkeitspfad (GAP) führt eine große Skalen-Downsampling-Operation der Merkmalskarten vor der Berechnung der globalen Selbstaufmerksamkeit durch, um die Rechenkosten zu reduzieren. Der lokale Aufmerksamkeitspfad (LAP) verwendet effiziente Streifenfaltung (stripe convolution), um lokale Aufmerksamkeit zu generieren, wodurch der Informationsverlust durch die Downsampling-Operation im GAP verringert und die räumlichen Details ergänzt werden. Zudem entwerfen wir ein Merkmalsverfeinerungsmodul namens Channel Mixing Feature Refine Module (CM-FRM), um tiefere und höhere Merkmale zu fusionieren. Unser Modell erreicht wettbewerbsfähige Ergebnisse auf drei öffentlichen Datensätzen zur Gebäudeextraktion. Der Quellcode wird unter folgender URL verfügbar sein: https://github.com/stdcoutzrh/BuildingExtraction.

Benchmarks

BenchmarkMethodikMetriken
extracting-buildings-in-remote-sensing-images-4DSAT-Net
IoU: 76.54
semantic-segmentation-on-inria-aerial-imageDSAT-Net
IoU: 82.68

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp