vor 11 Tagen

UNetFormer: Ein UNet-ähnlicher Transformer für die effiziente semantische Segmentierung von Fernerkundungsbildern städtischer Szenen

Libo Wang, Rui Li, Ce Zhang, Shenghui Fang, Chenxi Duan, Xiaoliang Meng, Peter M. Atkinson

Abstract

Die semantische Segmentierung von aus der Ferne abgebildeten städtischen Szenen ist in einer Vielzahl praktischer Anwendungen erforderlich, darunter Landnutzungskartierung, Stadtveränderungserkennung, Umweltschutz und wirtschaftliche Bewertung. Getrieben durch die rasanten Fortschritte in der Technologie des tiefen Lernens hat das Faltungsneuronale Netzwerk (CNN) jahrelang die semantische Segmentierung dominiert. Das CNN nutzt eine hierarchische Merkmalsdarstellung und zeigt starke Fähigkeiten bei der Extraktion lokaler Informationen. Allerdings beschränkt die lokale Natur der Faltungsoperation die Fähigkeit des Netzwerks, globale Kontextinformationen zu erfassen. In jüngster Zeit hat sich der Transformer – ein aktuelles Forschungsthema im Bereich der Computer Vision – als äußerst vielversprechend für die Modellierung globaler Informationen erwiesen und zahlreiche visuelle Aufgaben wie Bildklassifikation, Objekterkennung sowie insbesondere die semantische Segmentierung erheblich vorangetrieben. In diesem Artikel stellen wir einen Transformer-basierten Decoder vor und konstruieren ein UNet-ähnliches Transformer-Modell (UNetFormer) für die Echtzeit-Segmentierung städtischer Szenen. Um eine effiziente Segmentierung zu gewährleisten, wählt der UNetFormer den leichten ResNet18 als Encoder und entwickelt eine effiziente global-lokale Aufmerksamkeitsmechanik, um sowohl globale als auch lokale Informationen im Decoder zu modellieren. Umfangreiche Experimente zeigen, dass unsere Methode nicht nur schneller läuft, sondern auch eine höhere Genauigkeit im Vergleich zu aktuellen leichten Modellen erzielt. Insbesondere erreicht der vorgeschlagene UNetFormer auf den Datensätzen UAVid und LoveDA mIoU-Werte von 67,8 % bzw. 52,4 %, während die Inferenzgeschwindigkeit bei einer Eingabeauflösung von 512×512 auf einer einzigen NVIDIA GTX 3090 GPU bis zu 322,4 FPS beträgt. In weiterführenden Untersuchungen erreicht der vorgeschlagene Transformer-basierte Decoder in Kombination mit einem Swin Transformer Encoder zudem den Stand der Technik (91,3 % F1 und 84,1 % mIoU) auf dem Vaihingen-Datensatz. Der Quellcode wird frei unter https://github.com/WangLibo1995/GeoSeg verfügbar sein.