HyperAIHyperAI
vor 17 Tagen

Transformer trifft auf Faltung: Ein bidirektionaler Aufmerksamkeits-Netzwerk für die semantische Segmentierung von sehr fein aufgelösten städtischen Szenenbildern

Libo Wang, Rui Li, Dongzhi Wang, Chenxi Duan, Teng Wang, Xiaoliang Meng
Transformer trifft auf Faltung: Ein bidirektionaler Aufmerksamkeits-Netzwerk für die semantische Segmentierung von sehr fein aufgelösten städtischen Szenenbildern
Abstract

Die semantische Segmentierung von sehr fein auflösenden (VFR) urbanen Szenenbildern spielt eine bedeutende Rolle in verschiedenen Anwendungsbereichen wie autonomes Fahren, Landbedeckungsklassifikation und Stadtplanung. Allerdings beschränken die enormen Details in VFR-Bildern – insbesondere die erheblichen Skalen- und Erscheinungsvariationen von Objekten – die Leistungsfähigkeit bestehender Deep-Learning-Ansätze erheblich. Die Bewältigung dieser Herausforderungen stellt ein vielversprechendes Forschungsfeld in der Fernerkundungsgemeinschaft dar und eröffnet den Weg für die Analyse landschaftsweiter Muster und Entscheidungsfindung auf Szenenebene. In diesem Beitrag stellen wir ein Bilaterales Wahrnehmungsnetzwerk (BANet) vor, das eine Abhängigkeitspfad- und eine Texturpfadstruktur enthält, um sowohl langreichweitige Beziehungen als auch feinmaschige Details in VFR-Bildern umfassend zu erfassen. Konkret basiert der Abhängigkeitspfad auf ResT, einem neuartigen Transformer-Backbone mit speicher-effizienter Multi-Head-Self-Attention, während der Texturpfad auf gestapelten Faltungsoperationen aufbaut. Zudem wird ein Feature-Aggregation-Modul mit Hilfe der linearen Attention-Mechanismus entworfen, um die Abhängigkeits- und Texturmerkmale effektiv zu fusionieren. Umfangreiche Experimente an drei großen, urbanen Szenenbildsegmentierungsdatensätzen – dem ISPRS Vaihingen-Datensatz, dem ISPRS Potsdam-Datensatz und dem UAVid-Datensatz – belegen die Wirksamkeit unseres BANet. Insbesondere wird auf dem UAVid-Datensatz eine mIoU von 64,6 % erreicht. Der Quellcode ist unter https://github.com/WangLibo1995/GeoSeg verfügbar.

Transformer trifft auf Faltung: Ein bidirektionaler Aufmerksamkeits-Netzwerk für die semantische Segmentierung von sehr fein aufgelösten städtischen Szenenbildern | Neueste Forschungsarbeiten | HyperAI