HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von Fernerkundungs-Visions-Sprachmodellen für die zero-shot Szeneklassifizierung

Karim El Khoury Maxime Zanella Benoît Gérin Tiffanie Godelaine Benoît Macq Saïd Mahmoudi Christophe De Vleeschouwer Ismail Ben Ayed

Zusammenfassung

Visionsprachmodelle für Fernerkundung haben dank ihrer umfangreichen Vortraining vielversprechende Anwendungen gezeigt. Ihre konventionelle Verwendung in zero-shot-Szenenklassifikationsmethoden beinhaltet jedoch weiterhin die Aufteilung großer Bilder in Patchs und die Durchführung unabhängiger Vorhersagen, also induktiver Inferenz, was ihre Effektivität durch das Ignorieren wertvoller kontextueller Informationen einschränkt. Unser Ansatz löst dieses Problem, indem er anfängliche Vorhersagen auf der Grundlage von Textanweisungen und Patch-Affinitätsbeziehungen vom Bildencoder nutzt, um die zero-shot-Fähigkeiten durch transduktive Inferenz zu verbessern, ohne dabei eine Überwachung zu benötigen und bei geringem Rechenaufwand. Experimente mit zehn Fernerkundungsdatensätzen unter Verwendung modernster Visionsprachmodelle zeigen erhebliche Genauigkeitsverbesserungen im Vergleich zur induktiven zero-shot-Klassifikation. Unser Quellcode ist öffentlich auf Github verfügbar: https://github.com/elkhouryk/RS-TransCLIP


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp