Semantische Segmentierung aus Fernerkundungsdaten und die Ausnutzung latenter Lernprozesse zur Klassifikation von Hilfsaufgaben

In diesem Artikel betrachten wir drei verschiedene Aspekte der semantischen Segmentierung von Daten ferngesteuerter Sensoren mithilfe tiefer neuronaler Netze. Erstens konzentrieren wir uns auf die semantische Segmentierung von Gebäuden aus Fernerkundungsdaten und stellen ICT-Net vor. Das vorgeschlagene Netzwerk wurde anhand der Benchmark-Datensätze INRIA und AIRS getestet und zeigt gegenüber allen anderen aktuellen State-of-the-Art-Verfahren eine Verbesserung um mehr als 1,5 % und 1,8 % bezüglich des Jaccard-Index, jeweils. Zweitens untersuchen wir, da die Gebäudeklassifizierung typischerweise der erste Schritt im Rekonstruktionsprozess ist, die Beziehung zwischen Klassifizierungsgenauigkeit und Rekonstruktionsgenauigkeit. Schließlich präsentieren wir das einfache, jedoch überzeugende Konzept des latente Lernens und seine Implikationen im Kontext des tiefen Lernens. Wir vermuten, dass ein Netzwerk, das auf einer primären Aufgabe (z. B. Gebäudeklassifizierung) trainiert wurde, unbeabsichtigt auch Informationen über sekundäre Aufgaben (z. B. Klassifizierung von Straßen, Bäumen usw.) erlernt, die der primären Aufgabe ergänzend sind. Wir haben die vorgeschlagene Methode umfassend anhand des ISPRS-Benchmark-Datensatzes getestet, der Mehrfachlabels im Ground Truth enthält, und berichten über eine durchschnittliche Klassifizierungsgenauigkeit (F1-Score) von 54,29 % (SD = 17,03) für Straßen, 10,15 % (SD = 2,54) für Fahrzeuge, 24,11 % (SD = 5,25) für Bäume, 42,74 % (SD = 6,62) für niedrige Vegetation und 18,30 % (SD = 16,08) für Ungeziefer. Der Quellcode und ergänzende Materialien sind öffentlich unter http://www.theICTlab.org/lp/2019ICT-Net/ verfügbar.