SFA-Net: Semantic Feature Adjustment Network für die Segmentierung von Fernerkundungsbildern
Fortschritte in der tiefen Lern- und Computervision-Technik haben erhebliche Auswirkungen auf das Gebiet der Fernerkundung gehabt und ermöglichen eine effiziente Datenanalyse für Anwendungen wie die Landnutzungs-Klassifizierung und Veränderungsdetektion. Konvolutionale neuronale Netzwerke (CNNs) und Transformer-Architekturen werden aufgrund ihrer Wirksamkeit bei der Analyse lokaler Merkmale und globaler Kontextinformationen in visuellen Wahrnehmungsalgorithmen eingesetzt. In diesem Artikel stellen wir eine hybride Transformer-Architektur vor, die aus einem CNN-basierten Encoder und einem Transformer-basierten Decoder besteht. Wir schlagen ein Merkmalsanpassungsmodul vor, das die aus einem EfficientNet-Grundnetzwerk extrahierten mehrskaligen Merkmalskarten verfeinert. Die angepassten Merkmalskarten werden in den Transformer-basierten Decoder integriert, um die semantische Segmentierung von Fernerkundungsbildern durchzuführen. In dieser Arbeit bezeichnen wir die vorgeschlagene Encoder-Decoder-Architektur als semantisches Merkmalsanpassungsnetzwerk (SFA-Net). Um die Wirksamkeit von SFA-Net zu demonstrieren, wurden umfassende Experimente mit vier öffentlichen Benchmark-Datensätzen durchgeführt, darunter UAVid, ISPRS Potsdam, ISPRS Vaihingen und LoveDA. Das vorgeschlagene Modell erreichte auf den Datensätzen UAVid, ISPRS Vaihingen und LoveDA state-of-the-art Genauigkeit bei der Segmentierung von Fernerkundungsbildern. Auf dem ISPRS Potsdam-Datensatz erzielte unsere Methode vergleichbare Genauigkeit wie der aktuellste Modellansatz, wobei die Anzahl der trainierbaren Parameter von 113,8 M auf 10,7 M reduziert wurde.