HyperAIHyperAI
il y a 15 jours

RemoteCLIP : un modèle fondamental vision-langage pour la télédétection

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou
RemoteCLIP : un modèle fondamental vision-langage pour la télédétection
Résumé

Les modèles fondamentaux à usage général ont permis des progrès récents dans le domaine de l’intelligence artificielle. En télédétection, l’apprentissage auto-supervisé (SSL) et le modèle d’image masquée (MIM) ont été adoptés pour construire des modèles fondamentaux. Toutefois, ces modèles apprennent principalement des caractéristiques de bas niveau et nécessitent des données annotées pour le fine-tuning. De plus, leur application à des tâches de recherche ou à des scénarios zero-shot est limitée en raison du manque de compréhension du langage. Pour surmonter ces limitations, nous proposons RemoteCLIP, le premier modèle fondamental vision-langage dédié à la télédétection, dont l’objectif est d’apprendre des caractéristiques visuelles robustes, riches en sémantique, ainsi que des représentations textuelles alignées, permettant une intégration fluide dans des tâches ultérieures. En réponse à la rareté des données d’entraînement préalable, nous exploitons une stratégie d’agrandissement des données qui convertit des annotations hétérogènes en un format unifié image-légende, basé sur des transformations Box-to-Caption (B2C) et Mask-to-Box (M2B). En intégrant par ailleurs des images capturées par drones (UAV), nous obtenons un jeu de données d’entraînement préalable 12 fois plus volumineux que la somme de tous les jeux de données disponibles. RemoteCLIP peut être appliqué à diverses tâches ultérieures, notamment la classification d’images zero-shot, le linear probing, la classification k-NN, la classification à faibles exemples, la recherche image-texte, ainsi que le décompte d’objets dans les images de télédétection. Les évaluations menées sur 16 jeux de données, incluant un nouveau benchmark appelé RemoteCount destiné à tester la capacité de décompte d’objets, montrent que RemoteCLIP surpasse de manière cohérente les modèles fondamentaux de référence, quel que soit l’échelle du modèle. Impressivement, RemoteCLIP bat la méthode de l’état de l’art de 9,14 % de rappel moyen sur le jeu de données RSITMD et de 8,92 % sur RSICD. Pour la classification zero-shot, notre modèle RemoteCLIP dépasse le modèle de référence CLIP de jusqu’à 6,39 % d’accuracy moyenne sur 12 jeux de données ultérieurs. Site du projet : https://github.com/ChenDelong1999/RemoteCLIP

RemoteCLIP : un modèle fondamental vision-langage pour la télédétection | Articles de recherche récents | HyperAI