RS5M et GeoRSCLIP : Un grand jeu de données vision-langage et un grand modèle vision-langage pour la télédétection

Les modèles vision-langage préentraînés (VLM) exploitant de vastes jeux de données d’images et de textes appariés ont démontré des capacités d’association image-texte sans précédent, obtenant des résultats remarquables sur de nombreuses tâches en aval. Un défi crucial réside dans la manière de tirer parti des VLM à grande échelle déjà préentraînés sur des objets courants afin de réaliser un transfert spécifique au domaine, permettant ainsi de mener à bien des tâches en aval liées à un domaine particulier. Dans cet article, nous proposons un nouveau cadre incluant un Modèle Vision-Langage Préentraîné pour le Domaine (DVLM), qui comble le fossé entre les Modèles Vision-Langage Généraux (GVLM) et les tâches en aval spécifiques à un domaine. En outre, nous présentons un jeu de données d’images et de textes appariés dans le domaine de la télédétection (RS), intitulé RS5M, comprenant 5 millions d’images de télédétection accompagnées de descriptions en anglais. Ce jeu de données a été obtenu en filtrant des jeux de données publiques d’images et de textes appariés, puis en annotant des jeux de données de télédétection ne contenant que des étiquettes grâce à un VLM préentraîné. Il s’agit du premier jeu de données à grande échelle d’images et de textes appariés en télédétection. Par ailleurs, nous avons finement ajusté le modèle CLIP et expérimenté plusieurs méthodes de fine-tuning à faible coût en paramètres sur RS5M afin de construire le DVLM. Les résultats expérimentaux montrent que notre jeu de données est hautement efficace pour diverses tâches, et que notre modèle GeoRSCLIP améliore le modèle de base ou les modèles d’état de l’art précédents de 3 % à 20 % en classification zéro-shot (ZSC), de 3 % à 6 % en récupération croisée-modal texte-image en télédétection (RSCTIR), et de 4 % à 5 % en localisation sémantique (SeLo). Les jeux de données et les modèles ont été rendus publics à l’adresse suivante : \url{https://github.com/om-ai-lab/RS5M}.