HyperAIHyperAI

Command Palette

Search for a command to run...

UNetFormer: Ein UNet-ähnlicher Transformer für die effiziente semantische Segmentierung von Fernerkundungsbildern städtischer Szenen

Libo Wang Rui Li Ce Zhang Shenghui Fang Chenxi Duan Xiaoliang Meng Peter M. Atkinson

Zusammenfassung

Die semantische Segmentierung von aus der Ferne abgebildeten städtischen Szenen ist in einer Vielzahl praktischer Anwendungen erforderlich, darunter Landnutzungskartierung, Stadtveränderungserkennung, Umweltschutz und wirtschaftliche Bewertung. Getrieben durch die rasanten Fortschritte in der Technologie des tiefen Lernens hat das Faltungsneuronale Netzwerk (CNN) jahrelang die semantische Segmentierung dominiert. Das CNN nutzt eine hierarchische Merkmalsdarstellung und zeigt starke Fähigkeiten bei der Extraktion lokaler Informationen. Allerdings beschränkt die lokale Natur der Faltungsoperation die Fähigkeit des Netzwerks, globale Kontextinformationen zu erfassen. In jüngster Zeit hat sich der Transformer – ein aktuelles Forschungsthema im Bereich der Computer Vision – als äußerst vielversprechend für die Modellierung globaler Informationen erwiesen und zahlreiche visuelle Aufgaben wie Bildklassifikation, Objekterkennung sowie insbesondere die semantische Segmentierung erheblich vorangetrieben. In diesem Artikel stellen wir einen Transformer-basierten Decoder vor und konstruieren ein UNet-ähnliches Transformer-Modell (UNetFormer) für die Echtzeit-Segmentierung städtischer Szenen. Um eine effiziente Segmentierung zu gewährleisten, wählt der UNetFormer den leichten ResNet18 als Encoder und entwickelt eine effiziente global-lokale Aufmerksamkeitsmechanik, um sowohl globale als auch lokale Informationen im Decoder zu modellieren. Umfangreiche Experimente zeigen, dass unsere Methode nicht nur schneller läuft, sondern auch eine höhere Genauigkeit im Vergleich zu aktuellen leichten Modellen erzielt. Insbesondere erreicht der vorgeschlagene UNetFormer auf den Datensätzen UAVid und LoveDA mIoU-Werte von 67,8 % bzw. 52,4 %, während die Inferenzgeschwindigkeit bei einer Eingabeauflösung von 512×512 auf einer einzigen NVIDIA GTX 3090 GPU bis zu 322,4 FPS beträgt. In weiterführenden Untersuchungen erreicht der vorgeschlagene Transformer-basierte Decoder in Kombination mit einem Swin Transformer Encoder zudem den Stand der Technik (91,3 % F1 und 84,1 % mIoU) auf dem Vaihingen-Datensatz. Der Quellcode wird frei unter https://github.com/WangLibo1995/GeoSeg verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UNetFormer: Ein UNet-ähnlicher Transformer für die effiziente semantische Segmentierung von Fernerkundungsbildern städtischer Szenen | Paper | HyperAI