vor 2 Monaten

Verbesserung von Fernerkundungs-Visions-Sprachmodellen für die zero-shot Szeneklassifizierung

Karim El Khoury; Maxime Zanella; Benoît Gérin; Tiffanie Godelaine; Benoît Macq; Saïd Mahmoudi; Christophe De Vleeschouwer; Ismail Ben Ayed

Details der Forschungsarbeit anzeigen

Verbesserung von Fernerkundungs-Visions-Sprachmodellen für die zero-shot Szeneklassifizierung

Abstract

Visionsprachmodelle für Fernerkundung haben dank ihrer umfangreichen Vortraining vielversprechende Anwendungen gezeigt. Ihre konventionelle Verwendung in zero-shot-Szenenklassifikationsmethoden beinhaltet jedoch weiterhin die Aufteilung großer Bilder in Patchs und die Durchführung unabhängiger Vorhersagen, also induktiver Inferenz, was ihre Effektivität durch das Ignorieren wertvoller kontextueller Informationen einschränkt. Unser Ansatz löst dieses Problem, indem er anfängliche Vorhersagen auf der Grundlage von Textanweisungen und Patch-Affinitätsbeziehungen vom Bildencoder nutzt, um die zero-shot-Fähigkeiten durch transduktive Inferenz zu verbessern, ohne dabei eine Überwachung zu benötigen und bei geringem Rechenaufwand. Experimente mit zehn Fernerkundungsdatensätzen unter Verwendung modernster Visionsprachmodelle zeigen erhebliche Genauigkeitsverbesserungen im Vergleich zur induktiven zero-shot-Klassifikation. Unser Quellcode ist öffentlich auf Github verfügbar: https://github.com/elkhouryk/RS-TransCLIP