HyperAIHyperAI
vor 17 Tagen

GAMUS: Ein geometriebewusstes multimodales semantisches Segmentierungsbenchmark für Fernerkundungsdaten

Zhitong Xiong, Sining Chen, Yi Wang, Lichao Mou, Xiao Xiang Zhu
GAMUS: Ein geometriebewusstes multimodales semantisches Segmentierungsbenchmark für Fernerkundungsdaten
Abstract

Geometrische Informationen in normalisierten digitalen Oberflächenmodellen (nDSM) sind stark mit der semantischen Klasse der Landnutzung korreliert. Die gemeinsame Nutzung zweier Modalitäten – RGB und nDSM (Höhe) – bietet großes Potenzial, die Leistung der Segmentierung zu verbessern. Allerdings bleibt dieses Feld in der Fernerkundung bisher untererforscht, hauptsächlich aufgrund folgender Herausforderungen: Erstens sind die Skalen bestehender Datensätze relativ klein und die Vielfalt der verfügbaren Datensätze beschränkt, was die Validierungsfähigkeit einschränkt. Zweitens fehlt es an einheitlichen Benchmarks zur Leistungsbewertung, was den Vergleich der Effektivität verschiedener Modelle erschwert. Drittens wurden komplexe multimodale Ansätze zur semantischen Segmentierung für Fernerkundungsdaten bisher noch nicht ausreichend erforscht. Um diesen Herausforderungen zu begegnen, stellen wir in diesem Artikel ein neues Benchmark-Datensatz für multimodale semantische Segmentierung auf Basis von RGB-Höhen (RGB-H)-Daten vor. Um eine faire und umfassende Analyse bestehender Methoden zu ermöglichen, umfasst der vorgeschlagene Benchmark: 1) einen großskaligen Datensatz mit räumlich registrierten RGB- und nDSM-Paaren sowie pixelgenauen semantischen Etiketten; 2) eine umfassende Evaluation und Analyse bestehender multimodaler Fusionsstrategien sowohl für convolutionale als auch für Transformer-basierte Netzwerke auf Fernerkundungsdaten. Darüber hinaus schlagen wir ein neuartiges und effektives Transformer-basiertes Intermediär-Multimodal-Fusionsmodul (TIMF) vor, das die Leistung der semantischen Segmentierung durch adaptives, token-basiertes Fusionsverfahren verbessert. Der entworfene Benchmark fördert zukünftige Forschungsarbeiten zur Entwicklung neuer Methoden für multimodales Lernen auf Fernerkundungsdaten. Ausführliche Analysen dieser Methoden werden durchgeführt, und die experimentellen Ergebnisse liefern wertvolle Erkenntnisse. Der Quellcode für den Benchmark und die Baseline-Modelle ist unter \url{https://github.com/EarthNets/RSI-MMSegmentation} zugänglich.

GAMUS: Ein geometriebewusstes multimodales semantisches Segmentierungsbenchmark für Fernerkundungsdaten | Neueste Forschungsarbeiten | HyperAI