Verbesserung von Fernerkundungs-Visions-Sprachmodellen für die zero-shot Szeneklassifizierung

Visionsprachmodelle für Fernerkundung haben dank ihrer umfangreichen Vortraining vielversprechende Anwendungen gezeigt. Ihre konventionelle Verwendung in zero-shot-Szenenklassifikationsmethoden beinhaltet jedoch weiterhin die Aufteilung großer Bilder in Patchs und die Durchführung unabhängiger Vorhersagen, also induktiver Inferenz, was ihre Effektivität durch das Ignorieren wertvoller kontextueller Informationen einschränkt. Unser Ansatz löst dieses Problem, indem er anfängliche Vorhersagen auf der Grundlage von Textanweisungen und Patch-Affinitätsbeziehungen vom Bildencoder nutzt, um die zero-shot-Fähigkeiten durch transduktive Inferenz zu verbessern, ohne dabei eine Überwachung zu benötigen und bei geringem Rechenaufwand. Experimente mit zehn Fernerkundungsdatensätzen unter Verwendung modernster Visionsprachmodelle zeigen erhebliche Genauigkeitsverbesserungen im Vergleich zur induktiven zero-shot-Klassifikation. Unser Quellcode ist öffentlich auf Github verfügbar: https://github.com/elkhouryk/RS-TransCLIP