Ein neuartiger auf Transformers basierender Ansatz zur semantischen Segmentierung für hochauflösende Fernerkundungsbilder

Das vollständig konvolutionelle Netzwerk (FCN) mit einer Encoder-Decoder-Architektur stellt den etablierten Standard für semantische Segmentierung dar. Die Encoder-Decoder-Architektur nutzt einen Encoder, um mehrstufige Merkmalskarten zu erfassen, die durch einen Decoder in die endgültige Vorhersage integriert werden. Da der Kontext für eine präzise Segmentierung entscheidend ist, wurden erhebliche Anstrengungen unternommen, um diese Informationen intelligent zu extrahieren, beispielsweise durch den Einsatz von dilatierten/atrousen Konvolutionen oder die Integration von Aufmerksamkeitsmodulen. Allerdings basieren diese Ansätze alle auf der FCN-Architektur mit ResNet oder anderen Backbone-Netzwerken, die den Kontext aus theoretischer Sicht nicht vollständig ausnutzen können. Im Gegensatz dazu stellen wir den Swin-Transformer als Backbone vor, um Kontextinformationen effektiv zu extrahieren, und entwerfen einen neuartigen Decoder basierend auf einem dicht verbundenen Modul zur Merkmalsaggregation (DCFAM), um die Auflösung wiederherzustellen und die Segmentierungskarte zu generieren. Die experimentellen Ergebnisse auf zwei Datensätzen für semantische Segmentierung aus Fernerkundung belegen die Wirksamkeit des vorgeschlagenen Ansatzes. Der Quellcode ist unter https://github.com/WangLibo1995/GeoSeg verfügbar.