Multimodale zeitliche Aufmerksamkeitsmodelle für die Kulturkartenerstellung aus Satelliten-Zeitreihen

Optische und Radar-Satellitenzeitreihen sind synergistisch: Optische Bilder enthalten reichhaltige spektrale Informationen, während C-Band-Radar nützliche geometrische Informationen liefert und von Bewölkung unbeeinflusst ist. Angeregt durch den jüngsten Erfolg temporaler Aufmerksamkeitsmethoden bei mehreren Aufgaben der Kulturkartierung untersuchen wir, wie diese Modelle auf mehrere Modalitäten angepasst werden können. Wir implementieren und evaluieren verschiedene Fusionsansätze, darunter ein neuartiger Ansatz sowie einfache Anpassungen am Trainingsprozess, die die Leistung und Effizienz erheblich verbessern, ohne signifikant mehr Komplexität hinzuzufügen. Wir zeigen, dass die meisten Fusionsstrategien Vor- und Nachteile aufweisen und somit für spezifische Anwendungsszenarien geeignet sind. Anschließend evaluieren wir den Nutzen der Multimodalität an mehreren Aufgaben: Parzellenklassifikation, pixelbasierte Segmentierung und panoptische Parzellensegmentierung. Wir belegen, dass multimodale, auf temporaler Aufmerksamkeit basierende Modelle, die sowohl optische als auch Radar-Zeitreihen nutzen, Einzelmodality-Modelle hinsichtlich Leistung und Robustheit gegenüber Bewölkung übertrumpfen können. Zur Durchführung dieser Experimente erweitern wir die PASTIS-Datenbank um räumlich ausgerichtete Radar-Zeitreihen. Das resultierende Datenset, PASTIS-R, stellt das erste großskalige, multimodale und öffentlich zugängliche Satelliten-Zeitreihendatenset mit semantischen und instanzbasierten Annotationen dar.