Merkmalsgeleiteter maskierter Autoencoder für selbstüberwachtes Lernen in der Fernerkundung

Selbstüberwachtes Lernen, das durch maskebasierte Bildmodellierung wie den Masked Autoencoder (MAE) geleitet wird, hat große Aufmerksamkeit für die Vortrainierung von Vision-Transformern im Bereich der Fernerkundung erfahren. Allerdings neigt MAE dazu, sich übermäßig auf pixelgenaue Details zu konzentrieren, was die Fähigkeit des Modells zur semantischen Verständnisbeeinträchtigung einschränkt, insbesondere bei verrauschten SAR-Bildern. In diesem Artikel untersuchen wir spektrale und räumliche Merkmale fernerkundeter Bilder als verbesserte Rekonstruktionsziele für MAE. Zunächst führen wir eine Studie zur Rekonstruktion verschiedener Bilddatenmerkmale durch, wobei alle Merkmale gleich gut oder sogar besser abschneiden als die rohen Pixel. Aufgrund dieser Beobachtungen schlagen wir den Feature Guided Masked Autoencoder (FG-MAE) vor: die Rekonstruktion einer Kombination aus Histograms of Oriented Gradients (HOG) und Normalized Difference Indices (NDI) für multispektrale Bilder sowie die Rekonstruktion von HOG für SAR-Bilder. Experimentelle Ergebnisse auf drei nachgeschalteten Aufgaben belegen die Wirksamkeit von FG-MAE, wobei insbesondere bei SAR-Bildern ein signifikanter Leistungsanstieg zu verzeichnen ist. Zudem zeigen wir die gut übertragene Skalierbarkeit von FG-MAE und veröffentlichen erstmals eine Reihe vortrainierter Vision-Transformers für mittelauflösende SAR- und multispektrale Bilder.