AerialFormer: Multi-resolution Transformer für die Segmentierung von Luftbildern

Die Segmentierung von Luftbildern ist eine semantische Segmentierung aus einer top-down Perspektive und weist mehrere herausfordernde Eigenschaften auf, darunter eine starke Ungleichverteilung zwischen Vorder- und Hintergrund, komplexe Hintergründe, intra-klassen Heterogenität, inter-klassen Homogenität sowie winzige Objekte. Um diesen Herausforderungen zu begegnen, nutzen wir die Stärken von Transformers und stellen AerialFormer vor, das Transformers im kontrahierenden Pfad mit leichten, mehrfach dilatierten neuronalen Netzwerken (MD-CNNs) im expandierenden Pfad vereint. AerialFormer ist als hierarchische Struktur konzipiert, wobei der Transformer-Encoder mehrskalige Merkmale erzeugt und der MD-CNN-Decoder Informationen aus diesen mehrskaligen Ebenen aggregiert. Dadurch werden sowohl lokale als auch globale Kontextinformationen berücksichtigt, was zu leistungsfähigen Repräsentationen und hochauflösender Segmentierung führt. Wir haben AerialFormer anhand dreier gängiger Datensätze – iSAID, LoveDA und Potsdam – evaluiert. Umfassende Experimente und umfangreiche Ablationsstudien zeigen, dass unser vorgeschlagenes AerialFormer die bisherigen State-of-the-Art-Methoden signifikant übertrifft. Die Quellcode-Implementierung wird nach Akzeptanz öffentlich zugänglich sein.