MTP: Die Förderung von Grundmodellen der Fernerkundung durch Mehrfachaufgaben-Prätrainierung

Grundmodelle (Foundation Models) haben das Gebiet der Fernerkundung (Remote Sensing, RS) durch die Verbesserung verschiedener Bildinterpretationsaufgaben neu geformt. Das Vortrainieren (Pretraining) ist ein aktives Forschungsthema, das überwachte und selbstüberwachte Lernmethoden umfasst, um die Modellgewichte effektiv zu initialisieren. Allerdings kann das Transferieren der vortrainierten Modelle auf nachgelagerte Aufgaben (downstream tasks) aufgrund ihrer Formulierung als Bildklassifizierungs- oder Objektdiskriminierungsaufgaben zu Aufgabendiskrepanzen führen. In dieser Studie untersuchen wir das Paradigma des Mehrfach-Aufgaben-Vortrainings (Multi-Task Pretraining, MTP) für RS-Grundmodelle, um dieses Problem anzugehen. Unter Verwendung einer gemeinsamen Encoder-Architektur und dekodierender Komponenten spezifisch für jede Aufgabe führen wir ein mehrfaches überwachtes Vortraining auf dem SAMRS-Datensatz durch, der semantische Segmentierung, Instanzsegmentierung und die Detektion von rotierten Objekten umfasst. MTP unterstützt sowohl konvolutive Neuronale Netze (Convolutional Neural Networks) als auch Visionstransformer-Grundmodelle mit mehr als 300 Millionen Parametern. Die vortrainierten Modelle werden auf verschiedene nachgelagerte RS-Aufgaben wie Szene-Klassifizierung, horizontale und rotierte Objekterkennung, semantische Segmentierung und Änderungsdetektion feinjustiert (finetuned). Umfangreiche Experimente mit 14 Datensätzen zeigen die Überlegenheit unserer Modelle gegenüber bestehenden Modellen ähnlicher Größe sowie ihre wettbewerbsfähige Leistung im Vergleich zu größeren state-of-the-art-Modellen, was die Effektivität von MTP bestätigt.