HyperAIHyperAI
vor 2 Monaten

Tiefe Multimodale Fusion für die Semantische Segmentierung von Fernerkundungsdaten der Erdbeobachtung

Ivica Dimitrovski; Vlatko Spasev; Ivan Kitanovski
Tiefe Multimodale Fusion für die Semantische Segmentierung von Fernerkundungsdaten der Erdbeobachtung
Abstract

Eine genaue semantische Segmentierung von Fernerkundungsdaten ist für verschiedene Anwendungen der Erdbeobachtung wie Landbedeckungskarten, städtische Planung und Umweltüberwachung entscheidend. Jedoch weisen einzelne Datenquellen oft Einschränkungen für diese Aufgabe auf. Sehr hochaufgelöste (VHR) Luftbilder bieten reichhaltige räumliche Details, können jedoch keine zeitlichen Informationen über Veränderungen der Landbedeckung erfassen. Umgekehrt erfassen Satellitenbildzeitreihen (SITS) räumlich-zeitliche Dynamiken, wie saisonale Variationen in der Vegetation, aber mit begrenzter räumlicher Auflösung, was es schwierig macht, feinskalige Objekte zu unterscheiden. In dieser Arbeit wird ein spät-fusions Deep-Learning-Modell (LF-DLM) für die semantische Segmentierung vorgeschlagen, das die ergänzenden Stärken von VHR-Luftbildern und SITS nutzt. Das vorgeschlagene Modell besteht aus zwei unabhängigen Deep-Learning-Zweigen. Ein Zweig integriert detaillierte Texturen aus Luftbildern, die durch UNetFormer erfasst werden, mit einem Mehrachsen-Visionstransformer (MaxViT)-Rückenbon. Der andere Zweig erfasst komplexe räumlich-zeitliche Dynamiken aus den Zeitreihen der Sentinel-2-Satellitenbilder mithilfe eines U-Net mit zeitlichem Aufmerksamkeitsencoder (U-TAE). Dieser Ansatz führt zu Stand-of-the-Art-Ergebnissen im FLAIR-Datensatz, einer groß angelegten Referenzdatenbank für die Landbedeckungsegmentierung unter Verwendung multiquelliger optischer Bilder. Die Ergebnisse unterstreichen die Bedeutung der Multimodalitätsfusion zur Verbesserung der Genauigkeit und Robustheit der semantischen Segmentierung in Fernerkundungsanwendungen.