HyperAIHyperAI

Command Palette

Search for a command to run...

LMFNet: Ein effizienter multimodaler Fusionansatz für die semantische Segmentierung in hochauflösenden Fernerkundungsdaten

Tong Wang Guanzhou Chen Xiaodong Zhang Chenxi Liu Xiaoliang Tan Jiaqi Wang Chanjuan He Wenlin Zhou

Zusammenfassung

Trotz der raschen Entwicklung der semantischen Segmentierung für die Landbedeckungsklassifizierung in hochauflösenden Fernerkundungsbildern bleibt die Integration mehrerer Datentypen – wie Digital Surface Model (DSM), RGB und Near-Infrared (NIR) – weiterhin eine Herausforderung. Aktuelle Methoden verarbeiten häufig nur zwei Datentypen und verpassen damit die reichhaltige Information, die zusätzliche Modalitäten bieten könnten. Um diese Lücke zu schließen, stellen wir ein neuartiges \textbf{L}eichtgewichtiges \textbf{M}ultimodales-Daten-\textbf{F}usions-\textbf{N}etzwerk (LMFNet) vor, das die Aufgaben der Datenfusion und semantischen Segmentierung multimodaler Fernerkundungsbilder effizient bewältigt. LMFNet verarbeitet einzigartigerweise verschiedene Datentypen gleichzeitig – inklusive RGB, NirRG und DSM – mittels eines gewichteteilenden, mehrästigen Vision-Transformers, der die Anzahl der Parameter minimiert, gleichzeitig aber eine robuste Merkmalsextraktion gewährleistet. Unser vorgeschlagener multimodaler Fusionsmodul integriert eine \textit{Multimodale Merkmalsrekonstruktions-Schicht} und eine \textit{Multimodale Merkmals-Self-Attention-Fusions-Schicht}, die es ermöglichen, multimodale Merkmale sowohl zu rekonstruieren als auch zu fusionieren. Ausführliche Tests auf öffentlichen Datensätzen wie US3D, ISPRS Potsdam und ISPRS Vaihingen belegen die Wirksamkeit von LMFNet. Insbesondere erreicht LMFNet auf dem US3D-Datensatz eine mittlere Intersection-over-Union (mIoU) von 85,09 %, was eine signifikante Verbesserung gegenüber bestehenden Ansätzen darstellt. Im Vergleich zu unimodalen Ansätzen zeigt LMFNet eine Verbesserung der mIoU um 10 % bei lediglich einer Erhöhung der Parameteranzahl um 0,5 Mio. Im Vergleich zu bimodalen Methoden steigert unser Ansatz mit dreifacher Eingabe die mIoU um 0,46 Prozentpunkte.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp