HyperAI

En Développant Le Plus Grand Ensemble De Données De Commande De Télédétection À Ce Jour, IBM Research Et D'autres Ont Proposé Un VLM Conçu Spécifiquement Pour Les Données D'observation De La Terre, Sélectionné Pour CVPR 2025

特色图像

Le domaine de l’observation de la Terre connaît une vague révolutionnaire de développements et gagne en importance chaque jour. Du point de vue de l’échelle de l’industrie, le rapport du Forum économique mondial de mai 2024 a montré queSa valeur économique potentielle passera de 266 milliards de dollars en 2023 à plus de 700 milliards de dollars en 2030.De nombreux pays et organisations internationales attachent depuis longtemps de l’importance à l’importance stratégique de l’observation de la Terre et élaborent activement des plans à cet effet.

Cependant, la technologie d’observation de la Terre rencontre des difficultés dans le traitement de données complexes. Les systèmes traditionnels d’analyse d’images satellites sont lents à traiter les données de télédétection multi-sources et présentent des lacunes dans l’analyse de l’espace géographique et des dimensions spectrales. Les modèles vision-langage (VLM) ont fait des progrès significatifs dans le domaine de l'interprétation visuelle générale, mais les modèles généraux sont difficiles à gérer lorsqu'ils sont confrontés à des données d'observation de la Terre.Étant donné que ses dimensions géospatiales, spectrales et temporelles uniques imposent des exigences plus élevées aux modèles, même les modèles propriétaires avancés sont moins précis dans le traitement de données de télédétection spécifiques.

Auparavant, des VLM pour des domaines spécifiques de l'observation de la Terre, tels que RS-GPT et GeoChat, ont été lancés, mais ils présentent des limites dans le traitement d'images haute résolution, l'analyse multispectrale et multitemporelle, etc. Dans ce contexte, IBM Research, Emirates University of Artificial Intelligence, Australian National University, Linköping University, Suède, etc.Lancement conjoint d'EarthDial, un VLM conversationnel capable de traiter de manière uniforme des images de télédétection multi-résolution, multispectrale et multi-temporelle, transformant de manière innovante des observations terrestres multisensorielles complexes en dialogues interactifs en langage naturel pour prendre en charge une variété de tâches de télédétection.L'équipe de recherche a construit un ensemble de données massif de plus de 11,11 millions de paires d'instructions, couvrant une variété de modalités multispectrales, jetant ainsi une base solide pour les puissantes capacités du modèle.

Les résultats de recherche associés, intitulés « EarthDial : Transformer les observations multisensorielles de la Terre en dialogues interactifs », ont été sélectionnés pour CVPR 2025.

Points saillants de la recherche :

* EarthDial est un VLM conversationnel capable de traiter des images de télédétection multispectrales, multitemporelles et multirésolutions pour répondre aux besoins de diverses missions d'observation de la Terre.

* Cette étude a introduit le plus grand ensemble de données de réglage fin des instructions de télédétection, contenant plus de 11,11 millions de paires d'instructions, couvrant plusieurs modalités, améliorant considérablement les capacités de compréhension et de généralisation du modèle.

* Les expériences montrent qu'EarthDial fonctionne bien dans 44 tâches d'observation de la Terre en aval, montrant une précision plus élevée et une meilleure capacité de généralisation que les VLM spécifiques au domaine existants.


Adresse du document :

https://go.hyper.ai/ZtmPG

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit également des ensembles de données et des outils massifs :

https://github.com/hyperai/awesome-ai4s

Ensemble de données : plus de 10 millions d'instructions, couvrant plusieurs résolutions et informations de localisation géographique

Dans le domaine des technologies d’observation de la Terre, la complexité des dimensions des données et la diversité des scénarios de mission posent de sérieux défis à la capacité de généralisation des modèles. Afin de surmonter le goulot d’étranglement des performances des modèles traditionnels dans le traitement des données de télédétection multimodales, multirésolutions et multitemporelles,EarthDial a construit un ensemble de données à grande échelle, EarthDial-Instruct, spécifiquement pour le domaine de la télédétection, qui contient plus de 11 millions de paires d'instructions professionnelles.La stratégie de pré-formation de cet ensemble de données se concentre sur le développement de capacités de généralisation à travers les modalités, les résolutions et les périodes. En sélectionnant des paires questions-réponses de haute qualité à partir de plateformes professionnelles telles que SkyScript et SatlasPretrain, il intègre des données de télédétection hétérogènes multi-sources telles que les images optiques Sentinel-2, les données radar à synthèse d'ouverture Sentinel-1, les images aériennes NAIP et les images satellites Landsat, et configure simultanément les informations d'étiquette géographique.

En termes de contrôle de la qualité des données,L'équipe de recherche a mis en œuvre un triple mécanisme de filtrage :Tout d’abord, les échantillons clairsemés comportant moins de 3 champs d’étiquettes sont supprimés. Deuxièmement, les données non valides sont exclues en fonction de la distribution des valeurs de luminosité spectrale et de la couverture géographique. Enfin, à l'aide du modèle InternLM-XComposer2, des paires d'instructions questions-réponses standardisées sont générées automatiquement en fonction des éléments géographiques de l'image. Ce système de purification des données pose une base solide pour que le modèle comprenne les différences de caractéristiques spectrales, les caractéristiques de résolution spatiale et les lois de changement de réflectance temporelle des données de télédétection.

Afin de répondre aux besoins d'application pratique, EarthDial a construit un système d'instructions de tâches en aval raffiné.Couvre 10 tâches principales, 6 modalités visuelles et 2 types de phases.

Dans la tâche de classification de scène,L'équipe de recherche a introduit l'ensemble de données BigEarthNet pour gérer les problèmes complexes de classification de la couverture de surface, a utilisé l'ensemble de données multitemporelles FMoW pour réaliser une identification dynamique des changements d'utilisation des terres et a combiné les données de zonage climatique local avec l'ensemble de données de séries chronologiques TreeSatAI pour effectuer la classification de l'effet d'îlot de chaleur urbain et l'identification de la distribution des espèces d'arbres forestiers, résolvant ainsi efficacement le problème de la capacité de généralisation insuffisante des modèles traditionnels dans les domaines professionnels à petits échantillons.

Dans la tâche de détection de cible,L'équipe de recherche a conçu un système d'instructions comprenant trois types d'étiquettes : référence, identification et positionnement, couvrant des images multimodales telles que l'optique, le SAR et l'infrarouge, et permettant un positionnement spatial précis et une description des caractéristiques en quantifiant les attributs clés de la cible.

Les tâches de réponse aux questions visuelles et de description d'images créent des ensembles d'instructions composites en intégrant des ensembles de données multi-sources.Améliorez considérablement la diversité des tâches et les performances de traitement des modèles.La tâche de détection des changements adopte une stratégie de fusion multi-ensembles de données.Combiné à une analyse de séquence manuelle, un cadre de description standardisé a été généré.

En réponse aux besoins particuliers de détection de panache de méthane, l'équipe de recherche a conçu un modèle d'invite conversationnelle basé sur l'ensemble de données STARCOP pour obtenir un guidage précis de la cible ; L'étude sur l'effet d'îlot de chaleur urbain a inversé les indicateurs thermiques clés à l'aide de données d'image, établi un modèle de classification régionale et généré des instructions d'analyse thématique ; Le module d'évaluation des catastrophes a intégré l'ensemble de données sur les catastrophes sismiques xBD et les données de séquences sismiques QuakeSet pour construire un système d'instructions dédié à l'analyse du niveau de catastrophe et à l'évaluation de l'impact post-séisme.

Modèles de données interprétables et applications EarthDial

EarthDial : un modèle dédié au traitement unifié des données de télédétection multi-résolutions, multi-spectrales et multi-temporelles

EarthDial peut être appliqué de manière flexible à des tâches telles que la classification, la localisation visuelle et la détection des changements.Il est basé sur des modèles avancés de langage visuel d'images naturelles (VLM).Grâce à un réglage fin en plusieurs étapes, les capacités sont étendues, avec l'InternVL amélioré comme architecture, pour prendre en charge les données multispectrales et multitemporelles.

Comme le montre la figure ci-dessous,Le modèle se compose de trois composants : un encodeur visuel, un projecteur de couche MLP et un LLM.L'encodeur visuel est connecté à LLM via MLP en tant que bloc de connexion pour mapper les balises visuelles dans l'espace LLM.

Dans le même temps, le modèle a une conception légère avec seulement 4 milliards de paramètres. Tout en garantissant un fonctionnement efficace, il peut recevoir plusieurs types d'ensembles de données de télédétection et générer un contenu de dialogue de télédétection précis. Parmi eux, l'encodeur visuel utilise l'InternViT-300M léger distillé à partir de l'InternViT à 6 milliards de paramètres pour garantir de puissantes capacités d'encodage visuel ; le LLM pré-entraîné Phi-3-mini confère au modèle d'excellentes capacités de compréhension et de génération de langage ; le simple bloc de connexion MLP construit efficacement un pont entre les espaces visuel et linguistique.

aussi,L'ajout de deux modules principaux, Adaptive High Resolution et Data Fusion, est devenu la clé du traitement des données de télédétection complexes par le modèle.Le module adaptatif haute résolution s'appuie sur la stratégie dynamique d'InternVL 1.5. En divisant l'image en tuiles et en générant des vignettes, il conserve non seulement les détails de l'image haute résolution, mais fournit également une compréhension globale de la scène. Le module de fusion de données utilise des stratégies telles que le traitement des canaux, l'agrégation de caractéristiques et la réduction de la dimensionnalité pour les données multispectrales, SAR et autres afin de fusionner en profondeur les caractéristiques visuelles et textuelles, améliorant ainsi considérablement les performances du modèle dans les tâches complexes.

Architecture EarthDial

Pendant la phase de formation, EarthDial utilise une stratégie en trois étapes pour améliorer progressivement les performances :

La première étape est la préformation conversationnelle RS.À ce stade, 7,6 millions de paires image-texte provenant d'ensembles de données tels que Satlas et Skyscript sont utilisées pour la pré-formation afin d'établir les capacités d'alignement de la vision et du texte.

La deuxième étape est le réglage fin RS RVB et temporel.Cette étape permet d’affiner les données RVB et temporelles et d’optimiser les couches MLP et LLM.

La troisième étape est le réglage fin multispectral RS et SAR.Cette étape est étendue aux données multispectrales et SAR, en affinant les couches MLP et LLM.

Ces trois étapes de formation sont progressives et confèrent à EarthDial de puissantes capacités d'analyse des données d'observation de la Terre et d'exécution des tâches, apportant des avancées innovantes dans des domaines tels que la surveillance de l'environnement et la réponse aux catastrophes.

Stratégie de formation EarthDial

Résultats expérimentaux : les tâches multiples surpassent les modèles existants et fonctionnent bien dans le traitement des analyses de séquences biphasées et multiphasées

Lors d’expériences, le modèle EarthDial a démontré d’excellentes performances dans une variété de scénarios d’application. Il couvre les données d'image telles que l'imagerie RVB, multispectrale, SAR, infrarouge et thermique, et évalue des tâches telles que la classification de scènes, la détection d'objets, la réponse aux questions visuelles (VQA), la description d'images, la détection de changements et la détection de panaches de méthane.

Dans la tâche de classification de scène,Grâce à une évaluation zéro-shot, EarthDial améliore considérablement les performances des VLM existants sur plusieurs ensembles de données, en particulier sur les ensembles de tests fMoW et xBD.

Dans la tâche de détection de cible,EarthDial surpasse les modèles tels que GPT-4o, InternVL2-4B et GeoChat dans les trois sous-tâches de détection de cible de référence, de description de zone et de description d'emplacement, et fonctionne particulièrement bien dans les tâches de description d'emplacement et les ensembles de données d'images SAR.

Pour la description d'image et les tâches VQA,EarthDial surpasse les modèles existants sur des ensembles de données pertinents. Dans la tâche VQA, EarthDial est évalué à l'aide des ensembles de données RSVQA-LRBEN et RSVQA-HRBEN, et il présente un avantage dans la plupart des catégories.

Dans la tâche de détection de changement,EarthDial traite efficacement les données temporelles grâce à des stratégies de fusion de données, démontrant de puissantes capacités d'interprétation et de réponse aux données temporelles.

Dans les missions d’évaluation des catastrophes,Sur la base de 8 sous-tâches de l'ensemble de données xBD, EarthDial surpasse systématiquement les VLM existants dans des sous-tâches telles que l'ensemble de tests de classification d'images 1. Sur l'ensemble de données QuakeSet, en utilisant des images SAR pour la prévision des tremblements de terre, EarthDial a atteint une précision de 57,53%, surpassant GPT-4o.

En termes de traitement de données multimodales,EarthDial améliore considérablement les performances de GPT-4o dans les tâches de classification et de détection d'objets représentatifs d'images multispectrales, RVB-infrarouge et SAR, soulignant l'efficacité de sa stratégie de fusion multibande.

Dans l'expérience sur les îlots de chaleur urbains (ICU),EarthDial atteint une précision de 56,77% et peut identifier les tendances de température dans la bande Landsat8, ce qui est mieux que les 22,68% de GPT-4o.

Dans la tâche de classification du panache de méthane,En utilisant l'ensemble de données STARCOP, EarthDial a atteint une précision de 77,09%, soit une amélioration de 32,16% par rapport à GPT4o.

La révolution de l'IA dans l'observation de la Terre : un changement de paradigme de la collecte de données à la prise de décision intelligente

Sous la vague de transformation numérique mondiale, la technologie de l’IA entraîne de profonds changements dans le domaine de l’observation de la Terre. Grâce à des avancées technologiques telles que les grands modèles multimodaux et le traitement intelligent en orbite, ce domaine a accéléré sa transformation de la collecte de données traditionnelle vers un système intelligent en boucle fermée de « perception-cognition-prise de décision », devenant l'infrastructure de base soutenant le développement durable mondial.

Premièrement, les avancées technologiques font passer l’industrie de l’enregistrement passif à l’intervention active. Le modèle TerraMind développé conjointement par l’Agence spatiale européenne et IBM intègre huit types de sources de données hétérogènes.Il est devenu le premier modèle de base multimodal au monde pour l’observation de la Terre.Sa technologie de raisonnement modal complète intelligemment les données de surveillance des fuites de méthane dans la toundra sibérienne, améliorant la précision des prévisions de 20% et réduisant la consommation de puissance de calcul de 50% ; dans le scénario de surveillance de la forêt amazonienne, il utilise des capacités génératives pour réparer automatiquement les images manquantes et réaliser une surveillance par tous les temps.

Le modèle « Space Lingmou » 3.0 de l'Institut de recherche sur l'innovation en information spatiale de l'Académie chinoise des sciences construit un système d'interprétation à liaison complète avec des dizaines de milliards de paramètres.La précision est améliorée par le 4-10% par rapport au modèle traditionnel.Elle s’applique également à des scénarios tels que l’évaluation écologique de la nouvelle zone de Xiongan. En termes de traitement intelligent en orbite, la mise à niveau intelligente des charges utiles des satellites a donné lieu à des avancées dans les capacités de calcul de pointe. Le satellite Φsat-2 de l'ESA transporte six modules d'application d'IA, dont un système de surveillance des incendies de forêt qui capture les foyers d'incendie en temps réel et des algorithmes qui identifient rapidement les menaces écologiques. Ces avancées technologiques aident l’observation de la Terre à évoluer vers une prise de décision en temps réel.

Deuxièmement, la technologie de l’IA offre un large éventail de scénarios d’application dans le domaine de l’observation de la Terre, couvrant une gamme complète allant de la macro-surveillance à la micro-gouvernance. En termes de gouvernance climatique et écologique,TerraMind est un modèle avancé d'IA d'observation de la Terre développé par l'Agence spatiale européenne (ESA) et IBM Research Europe.L'intégration des données hyperspectrales du satellite Sentinel avec les réseaux de capteurs au sol a permis d'obtenir une précision de positionnement au niveau du mètre dans la surveillance des gazoducs sibériens, et la précision de la prévision des tendances de fuite a augmenté de 30% ; Le système Global Forest Watch 3.0 de la NASA et de Google combine l’IA et les inspections par drone.87% de zones d'exploitation forestière illégale ont été identifiées avec succès dans le bassin du Congo,Construire une « clôture numérique » solide pour protéger les forêts tropicales humides.

* Lien vers l'article :

https://doi.org/10.1016/j.rse.2021.112470

En termes de réponse aux catastrophes et de planification urbaine, le grand modèle d'IA de télédétection AIE-SEG d'Alibaba Damo Academy a réalisé l'évaluation des dommages aux bâtiments dans la zone sinistrée en 3 heures lors du tremblement de terre de 2024 en Turquie.L'efficacité est 50 fois supérieure à celle de l'analyse manuelle traditionnelle ;Le modèle de prédiction spatiotemporelle développé par l'équipe de l'Université Tsinghua simule le mouvement du flux d'air dans les couloirs de ventilation urbaine, fournissant un support de prise de décision quantitative pour la planification urbaine de Pékin. En termes d’agriculture et de gestion des ressources, Microsoft Project Premonition est actuellement testé dans l’Andhra Pradesh, en Inde.Les recommandations de semis de précision basées sur l'IA augmentent les rendements des cultures de 30% par hectare.Fournir un support de données en temps réel pour une agriculture intelligente.

Enfin, en termes de construction écologique, la collaboration industrie-université-recherche et la gouvernance mondiale dans le domaine de l'observation de la Terre progressent régulièrement, et la construction d'une écologie et de chaînes d'outils open source s'améliore constamment. Par exemple,Google Earth AI ouvre l'interface API,Aidez les développeurs mondiaux à accéder aux capacités de traitement intelligent des données satellitaires et à abaisser le seuil d’application de la technologie. L’initiative des Nations Unies « L’IA au service du bien » utilise l’intelligence artificielle pour lutter contre les catastrophes naturelles, s’engage à établir des normes unifiées d’évaluation des catastrophes à l’échelle mondiale et promeut l’interopérabilité des données et la collaboration technique.

Cela montre que la technologie de l’IA fait passer l’observation de la Terre d’un « enregistrement passif » à une « intervention active ». À l’avenir, avec l’intégration de technologies telles que les grands modèles multimodaux, le traitement intelligent en orbite et l’informatique quantique, l’observation de la Terre devrait devenir la pierre angulaire numérique soutenant les problèmes mondiaux tels que la neutralité carbone, la prévention et l’atténuation des catastrophes et la gestion des ressources, et écrire un nouveau chapitre du développement durable dans la relation symbiotique entre l’homme et la nature.

Articles de référence :

1.https://www.thepaper.cn/newsDetail_forward_30704895

2.https://mp.weixin.qq.com/s/i_Ar0RJ7g32s1ckCq81P-Q

3.https://mp.weixin.qq.com/s/xpjJH8ECV-2P4e4XKoXU9Q

4.https://mp.weixin.qq.com/s/NLp3