Ein Milliarden-Skala-Grundmodell für Fernerkundungsbilder

Da das Potenzial von Foundation-Modellen für visuelle Aufgaben zunehmend Aufmerksamkeit erlangt hat, ist die Vortrainierung dieser Modelle vor nachfolgenden Aufgaben zu einem entscheidenden Schritt geworden. Die drei zentralen Faktoren bei der Vortrainierung von Foundation-Modellen sind die Vortrainierungsmethode, die Größe des Vortrainingsdatensatzes und die Anzahl der Modellparameter. In jüngster Zeit konzentrierte sich die Forschung im Bereich der Fernerkundung primär auf die Vortrainierungsmethode und die Datensatzgröße, während die Anzahl der Modellparameter bisher nur begrenzt berücksichtigt wurde. In dieser Arbeit schließen wir diese Lücke, indem wir die Auswirkung einer Erhöhung der Anzahl der Modellparameter auf die Leistung von Foundation-Modellen bei nachfolgenden Aufgaben wie rotierter Objekterkennung und semantischer Segmentierung untersuchen. Wir vortrainierten Foundation-Modelle mit unterschiedlichen Parameterzahlen – 86 Mio., 605,26 Mio., 1,3 Mrd. und 2,4 Mrd. –, um zu prüfen, ob sich die Leistung bei nachfolgenden Aufgaben mit steigender Parameteranzahl verbessert. Sofern uns bekannt ist, handelt es sich hierbei um das erste Billionen-skalierte Foundation-Modell im Bereich der Fernerkundung. Darüber hinaus stellen wir eine effektive Methode zur Skalierung und Feinabstimmung eines Vision-Transformers im Bereich der Fernerkundung vor. Zur Bewertung der allgemeinen Leistung bei nachfolgenden Aufgaben nutzten wir die Benchmark-Datensätze DOTA v2.0 und DIOR-R für die rotierte Objekterkennung sowie die Datensätze Potsdam und LoveDA für die semantische Segmentierung. Die experimentellen Ergebnisse zeigten, dass sich sowohl die Leistung der Foundation-Modelle als auch die Dateneffizienz bei allen Benchmark-Datensätzen und nachfolgenden Aufgaben mit zunehmender Parameteranzahl verbesserten. Zudem erreichen unsere Modelle state-of-the-art-Ergebnisse auf mehreren Datensätzen, darunter DIOR-R, Potsdam und LoveDA.