Modèle De Géographie Visuelle Et Linguistique (VLGFM)
Vision-Language Geo-Foundation Models (VLGFM) est un modèle d'intelligence artificielle spécialement conçu pour traiter et analyser les données d'observation de la Terre. Il combine des informations visuelles et linguistiques pour améliorer la compréhension et l’analyse des données géospatiales. VLGFM est capable d'effectuer une variété de tâches, notamment des tâches multimodales telles que la description d'images, la récupération de texte d'image, la réponse visuelle aux questions et la localisation visuelle.
Le concept de VLGFM a été introduit pour la première fois dans le documentVers un modèle de géofondation vision-langage : une enquête" a été proposé dans un article de synthèse rédigé conjointement par des chercheurs de l'Université technologique de Nanyang, de SenseTime, du Shanghai AI Lab et de l'Université Jiao Tong de Shanghai, et publié en 2024. Cet article constitue la première revue de la littérature sur le VLGFM. Il examine les différences entre le VLGFM, les modèles basés sur la géographie visuelle et les modèles spécifiques au langage visuel, et résume les architectures de modèles et les ensembles de données couramment utilisés des VLGFM existants.