Neuüberprüfung der Kodierung von Satellitenbild-Zeitreihen

Die Repräsentationslernung von Satellitenbild-Zeitreihen (SITS) ist aufgrund hoher räumlich-zeitlicher Auflösungen, unregelmäßiger Aufnahmezeiten sowie komplexer räumlich-zeitlicher Interaktionen äußerst anspruchsvoll. Diese Herausforderungen führen zu spezialisierten neuronalen Netzarchitekturen, die gezielt für die Analyse von SITS entwickelt wurden. Obwohl die Forschung in diesem Bereich bereits vielversprechende Ergebnisse durch Pionierarbeiten erzielt hat, bleibt die Übertragung neuester Fortschritte oder etablierter Paradigmen aus dem Bereich des Computer Vision (CV) auf SITS weiterhin hochgradig herausfordernd, da das bestehende Framework zur Repräsentationslernung noch suboptimal ist. In diesem Artikel entwickeln wir einen neuartigen Ansatz zur SITS-Verarbeitung als direktes Mengenvorhersageproblem, inspiriert durch den jüngsten Trend, abfragbasierte Transformer-Decoder zur Vereinfachung von Objekterkennungs- oder Bildsegmentierungs-Pipelines einzusetzen. Wir schlagen zudem vor, den Prozess der Repräsentationslernung bei SITS in drei explizite Schritte zu zerlegen: Sammeln-Update-Verteilen, was recheneffizient ist und besonders gut für unregelmäßig abgetastete und asynchrone zeitliche Satellitenbeobachtungen geeignet ist. Durch die einzigartige Umformulierung gelingt es uns, einen neuen zeitlichen Lern-Backbone für SITS zu entwickeln, der zunächst auf der ressourcensparenden Pixel-Mengen-Form und anschließend auf aufgabenbezogenen dichten Vorhersageaufgaben feinabgestimmt wird. Dieser Ansatz erreicht neue SOTA-Ergebnisse auf dem PASTIS-Benchmark-Datensatz. Insbesondere ermöglicht die klare Trennung zwischen zeitlichen und räumlichen Komponenten im Semantik-/Panoptik-Segmentierungs-Pipeline von SITS die Nutzung aktueller Fortschritte aus dem CV-Bereich, wie beispielsweise der universellen Bildsegmentierungsarchitektur. Dadurch erzielen wir eine signifikante Steigerung um 2,5 Punkte im mIoU und um 8,8 Punkte im PQ im Vergleich zu den bisher besten veröffentlichten Werten.