Erweiterung der global-lokalen Sichtalignierung für selbstüberwachtes Lernen mit Fernerkundungsdaten

Da eine große Anzahl hochwertiger Fernerkundungsbilder leicht zugänglich ist, gewinnt die Nutzung von Bilddatenkorpus mit geringem manuellem Annotationenaufwand zunehmend an Aufmerksamkeit. Selbstüberwachte Modelle erlangen allgemeine Merkmalsdarstellungen, indem sie eine Vorarbeit (pretext task) formulieren, die für große Mengen an unlabeled Daten Pseudolabels generiert, um das Training zu supervidieren. Obwohl frühere Studien mehrere selbstüberwachte Lernmethoden im Bereich der Fernerkundung untersucht haben, bleiben Vorarbeitstypen basierend auf der Ausrichtung lokaler und globaler Ansichten untererforscht, obwohl sie auf natürlichen Bildern Zustand der Kunst-Ergebnisse erzielen. Inspiriert durch DINO, das eine effektive Struktur für die Repräsentationslernung mit Wissensdistillation auf Basis der global-lokalen Ansichtsausrichtung nutzt, formulieren wir zwei Vorarbeitstypen für das selbstüberwachte Lernen in Fernerkundungsbildern (SSLRS). Mit diesen Aufgaben untersuchen wir die Wirksamkeit positiver zeitlicher Kontrastierung sowie mehrerer Ansichtsgrößen im Kontext von SSLRS. Wir erweitern DINO und schlagen DINO-MC vor, das lokale Ansichten verschiedener Ausschnittgrößen anstelle einer einzigen festen Größe nutzt, um die begrenzte Variabilität der Objektgröße in Fernerkundungsbildern zu mildern. Unsere Experimente zeigen, dass DINO-MC bereits dann auf par oder besser als bestehende State-of-the-Art-Methoden für SSLRS abschneidet, wenn es nur auf 10 % des Datensatzes vortrainiert wird, und dabei weniger Rechenressourcen verbraucht. Alle Codes, Modelle und Ergebnisse sind unter https://github.com/WennyXY/DINO-MC veröffentlicht.