Amélioration des modèles de vision-langue par télédétection pour la classification de scènes en zero-shot

Les modèles Vision-Langage pour la télédétection ont montré des utilisations prometteuses grâce à leur préformation extensive. Cependant, leur utilisation conventionnelle dans les méthodes de classification de scènes en absence de données d'entraînement (zero-shot) implique toujours de diviser les grandes images en patches et de faire des prédictions indépendantes, c'est-à-dire l'inférence inductive, ce qui limite leur efficacité en ignorant des informations contextuelles précieuses. Notre approche aborde ce problème en utilisant des prédictions initiales basées sur des prompts textuels et des relations d'affinité entre les patches provenant du codificateur d'image pour améliorer les capacités en absence de données d'entraînement (zero-shot) par inférence transductive, sans nécessiter de supervision et avec un coût computationnel mineur. Des expériences menées sur 10 jeux de données de télédétection avec des modèles Vision-Langage de pointe démontrent une amélioration significative de la précision par rapport à la classification zero-shot inductive. Notre code source est disponible au public sur Github : https://github.com/elkhouryk/RS-TransCLIP