LMFNet: Ein effizienter multimodaler Fusionansatz für die semantische Segmentierung in hochauflösenden Fernerkundungsdaten

Trotz der raschen Entwicklung der semantischen Segmentierung für die Landbedeckungsklassifizierung in hochauflösenden Fernerkundungsbildern bleibt die Integration mehrerer Datentypen – wie Digital Surface Model (DSM), RGB und Near-Infrared (NIR) – weiterhin eine Herausforderung. Aktuelle Methoden verarbeiten häufig nur zwei Datentypen und verpassen damit die reichhaltige Information, die zusätzliche Modalitäten bieten könnten. Um diese Lücke zu schließen, stellen wir ein neuartiges \textbf{L}eichtgewichtiges \textbf{M}ultimodales-Daten-\textbf{F}usions-\textbf{N}etzwerk (LMFNet) vor, das die Aufgaben der Datenfusion und semantischen Segmentierung multimodaler Fernerkundungsbilder effizient bewältigt. LMFNet verarbeitet einzigartigerweise verschiedene Datentypen gleichzeitig – inklusive RGB, NirRG und DSM – mittels eines gewichteteilenden, mehrästigen Vision-Transformers, der die Anzahl der Parameter minimiert, gleichzeitig aber eine robuste Merkmalsextraktion gewährleistet. Unser vorgeschlagener multimodaler Fusionsmodul integriert eine \textit{Multimodale Merkmalsrekonstruktions-Schicht} und eine \textit{Multimodale Merkmals-Self-Attention-Fusions-Schicht}, die es ermöglichen, multimodale Merkmale sowohl zu rekonstruieren als auch zu fusionieren. Ausführliche Tests auf öffentlichen Datensätzen wie US3D, ISPRS Potsdam und ISPRS Vaihingen belegen die Wirksamkeit von LMFNet. Insbesondere erreicht LMFNet auf dem US3D-Datensatz eine mittlere Intersection-over-Union (mIoU) von 85,09 %, was eine signifikante Verbesserung gegenüber bestehenden Ansätzen darstellt. Im Vergleich zu unimodalen Ansätzen zeigt LMFNet eine Verbesserung der mIoU um 10 % bei lediglich einer Erhöhung der Parameteranzahl um 0,5 Mio. Im Vergleich zu bimodalen Methoden steigert unser Ansatz mit dreifacher Eingabe die mIoU um 0,46 Prozentpunkte.