HyperAIHyperAI

Command Palette

Search for a command to run...

Les Équipes De Google Collaborent Sur Earth AI, En Se Concentrant Sur Trois Points De Données Principaux Et En Améliorant Les Capacités De Raisonnement Géospatial Par 64%.

Featured Image

L'exploration humaine des lois temporelles et spatiales de la Terre a toujours été au cœur du développement des sciences de l'environnement et de la géographie. Des synthèses empiriques des phénomènes naturels aux prévisions météorologiques informatisées, la connaissance humaine du système terrestre a fait un bond en avant, passant du qualitatif au quantitatif. Depuis le XXIe siècle, des technologies telles que la télédétection par satellite, les réseaux de capteurs terrestres et les bases de données démographiques mondiales ont gagné en maturité, donnant lieu à une croissance fulgurante des données géospatiales. Ces données couvrent des informations multidimensionnelles telles que l'environnement géophysique, les activités humaines et la dynamique des catastrophes, et sont devenues un fondement essentiel des évaluations régionales, de l'allocation des ressources et de la recherche climatique. Dans ce contexte,L’intelligence artificielle géospatiale (GeoAI) est apparue comme un pont important reliant les « données terrestres » et les « connaissances scientifiques ».

Cependant, l’augmentation du volume de données entraîne également de graves « barrières de complexité ».D'une part, les données géospatiales se multiplient chaque jour par milliards, avec des types variés, des résolutions très variables et des périodes de temps très variables. De plus, les données sont rares dans certaines zones reculées. D'autre part, les modèles spécialisés traditionnels se limitent souvent à des tâches uniques et peinent à intégrer des informations provenant de sources multiples. Il en résulte une faible efficacité analytique et une faible généralisation, les rendant incapables de répondre aux exigences de scénarios complexes tels que les interventions interrégionales en cas de catastrophe et les prévisions multifactorielles en matière de santé publique. Bien que la GeoIA ait évolué vers un « modèle fondamental généralisé », les solutions existantes manquent encore de collaboration multimodale et d'accessibilité universelle.

En réponse aux défis ci-dessus,Google Research s'est associé à Google X, Google Cloud et d'autres équipes pour proposer le système de raisonnement intelligent géospatial « Earth AI ».Le système construit une famille de modèles GeoIA interopérables, développant des modèles fondamentaux spécialisés autour de trois types de données clés : l'imagerie, la population et l'environnement. Ces modèles s'adaptent précisément aux besoins analytiques dans diverses dimensions. Grâce à l'agent d'inférence Gemini, le système permet une collaboration multi-modèles approfondie et un raisonnement conjoint en plusieurs étapes. Grâce à l'interaction en langage naturel, le système réduit considérablement les obstacles à l'accès, permettant même aux utilisateurs non experts de mener des analyses interdisciplinaires en temps réel, faisant ainsi progresser la recherche sur le système terrestre, passant de l'accumulation de données à des connaissances globales exploitables.

Les résultats de recherche pertinents sont intitulés « Earth AI : Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning » et la pré-impression a été publiée sur arXiv.

Points saillants de la recherche :

* Le modèle fondamental de télédétection de cette recherche a obtenu des résultats de pointe dans des tâches telles que la détection d'objets à vocabulaire ouvert et la recherche intermodale sans échantillonnage. De plus, le modèle de dynamique de population a été validé de manière indépendante pour améliorer efficacement les applications concrètes dans les secteurs du commerce de détail et de la santé publique, et a été mis à niveau pour prendre en charge l'intégration de séries chronologiques à granularité mensuelle.

* Cette recherche intègre des modèles d'imagerie, démographiques et environnementaux pour construire un cadre de prédiction multimodal plus performant. Les données empiriques montrent que cette approche de fusion surpasse largement les résultats de toute analyse monomodale dans de multiples tâches de classification et de prédiction concrètes.

* Cette recherche met en œuvre un raisonnement géospatial complexe basé sur des agents : l'agent de raisonnement piloté par Gemini peut automatiquement déconstruire des requêtes géographiques complexes, envoyer des outils multi-modèles, afficher des chaînes de raisonnement transparentes et, en fin de compte, générer des conclusions cohérentes.

Adresse du document :
https://doi.org/10.48550/arXiv.2510.18318

Suivez le compte officiel et répondez « Earth AI » pour obtenir le PDF complet

Système de données Earth AI : établir les bases d'une analyse géospatiale intermodale

La base de formation d'Earth AI repose sur trois types d'ensembles de données géospatiales professionnelles pour l'analyse du système terrestre, prenant en charge une interprétation approfondie de l'imagerie, de la population et de l'environnement.

En termes de traitement des données d’image, le système intègre plusieurs ensembles de données de télédétection à grande échelle.RS-Landmarks contient 18 millions d'images satellites et aériennes avec des descriptions textuelles de haute qualité ; RS-WebLI utilise des classificateurs pour filtrer plus de 3 millions d'images de télédétection ouvertes à partir du Web, avec un potentiel d'échelle à des centaines de milliards ; et RS-Global fournit 30 millions d'images couvrant les masses continentales mondiales avec des résolutions allant de 0,1 à 10 mètres, couvrant la période de 2003 à 2022. Ensemble, ces ensembles de données constituent la base de données pour le développement et l'optimisation de modèles spécifiques à la télédétection, tels que les modèles vision-langage, la détection d'objets à vocabulaire ouvert, l'apprentissage en quelques coups et les modèles de base pré-entraînés.

En termes d’analyse de la dynamique de population,L'ensemble de données intègre en profondeur trois types d'informations : l'environnement bâti, les éléments naturels et le comportement humain. Il utilise la technologie des réseaux neuronaux graphiques pour générer des intégrations régionales unifiées. Le système a réalisé deux extensions clés à partir des données annuelles initiales pour les États-Unis : dans la dimension spatiale, la couverture a été étendue à 17 pays, dont l'Australie, le Brésil et l'Inde, et la sémantique de recherche a été alignée grâce à des graphes de connaissances afin d'améliorer les capacités de reconnaissance de formes interlingues et nationales. Les intégrations statiques pertinentes ont été ouvertes à la recherche en modélisation épidémiologique ; dans la dimension temporelle, une séquence d'intégration dynamique mensuelle a été construite de juillet 2023 à aujourd'hui. Le système d'étiquetage expérimental couvre un large éventail d'indicateurs tels que la santé, la socio-économie et l'environnement, et intègre les données épidémiologiques mensuelles de visites à l'échelle des comtés issues de la plateforme PopHIVE de Yale. L'évaluation régionale européenne combine également les données NUTS de niveau 3 de l'Office statistique européen.

Les données environnementales intègrent trois types de sources d'information : la météo, le climat et les catastrophes naturelles. Elles fournissent des prévisions météorologiques horaires sur 240 heures et des prévisions quotidiennes sur 10 jours basées sur des observations multi-sources et des modèles d'apprentissage automatique, une surveillance et une prévision des inondations en temps réel basées sur des données de stations mesurées, ainsi qu'un système expérimental de prévision des cyclones basé sur des réseaux de neurones aléatoires qui génère 50 chemins possibles et peut prédire l'intensité, les cercles de vent et les points d'atterrissage 15 jours à l'avance.

Ces ensembles de données structurés et standardisés fournissent non seulement un support pour une analyse indépendante dans divers domaines, mais permettent également une collaboration intermodale approfondie grâce à des agents de raisonnement pilotés par Gemini.Ce système permet une analyse complète, de l'analyse de requêtes complexes en langage naturel à la fusion d'informations multi-sources. Il constitue également une base de données solide permettant aux utilisateurs non professionnels d'accéder directement à des capacités d'analyse géospatiale complexes via des interfaces en langage naturel ou cartographiques.

Earth AI : Vers un cadre collaboratif multimodal pour l'analyse intelligente des systèmes terrestres

Earth AI est une famille de modèles d'intelligence artificielle géospatiale interopérables dont l'objectif principal est la « compréhension collaborative multimodale du système terrestre ».En coordonnant les composants grâce à des agents de raisonnement géospatial personnalisés et en construisant un système généralisé basé sur des modèles fondamentaux (MF) et des modèles de langage étendu (MLE), il dépasse les limites des modèles à usage unique et peut générer des informations exploitables pour un large éventail de problématiques planétaires. Son système central s'articule autour de « trois types de modèles fondamentaux + un mécanisme de collaboration des modèles + l'orchestration des agents ».

Présentation d'EarthAI

Dans le domaine de l'analyse d'images, Earth AI se concentre sur les modèles fondamentaux de télédétection. Son objectif principal est de relever les deux principaux défis rencontrés fréquemment dans les données de télédétection : la rareté des annotations et la distribution particulière des images, et de fournir un support technique pour une compréhension sémantique et une analyse ciblée efficaces des scénarios d'observation de la Terre.Comme le montre la figure ci-dessous, le modèle extrait des images aériennes et satellite professionnelles de Google Maps, les combine avec des métadonnées géospatiales telles que des emplacements et des points de repère, et les intègre au modèle Gemini. Le modèle génère ensuite des légendes synthétiques qui correspondent précisément au contenu de l'image grâce à des invites personnalisées. Il intègre également des images de télédétection WebLI avec des annotations textuelles, ainsi que des jeux de données de segmentation et de détection d'objets de télédétection étiquetés manuellement. Ces données multi-sources fournissent un support d'échantillonnage de haute qualité pour le pré-entraînement de trois modèles principaux : l'encodeur ViT pré-entraîné, le modèle vision-langage (VLM) et le modèle de détection d'objets à vocabulaire ouvert (OVD).

Aperçu des modèles de base de télédétection

Parmi ces méthodes, le modèle de langage visuel est entraîné à partir d'un jeu de données personnalisé, et un espace de compréhension sémantique unifié est construit en optimisant l'association de caractéristiques entre images et texte. Le modèle de détection d'objets à vocabulaire ouvert adopte une architecture Transformer améliorée, les caractéristiques d'image et de texte étant traitées respectivement par deux modules indépendants. L'encodeur visuel Transformer extrait d'abord les caractéristiques de base d'images volumineuses grâce à un apprentissage auto-supervisé, puis améliore l'adaptabilité et les performances du modèle dans des tâches spécifiques grâce à une optimisation conjointe multitâche. Dans le cadre de l'application réelle, les chercheurs ont directement utilisé les modèles VLM et OVD pour leurs tâches respectives de classification (Classification), de détection (Detection) et de récupération (Retrieval), et ont affiné l'encodeur ViT (Fine-Tuning) afin d'optimiser les performances SOTA sur des tâches spécifiques en aval.

En termes d'analyse de population, Earth AI prend comme base le modèle de base de la dynamique de population, suit les principes de fusion d'informations multi-sources et de protection de la vie privée, intègre des données sur l'environnement bâti, les conditions naturelles et le comportement humain, et génère des intégrations régionales unifiées via des réseaux neuronaux graphiques.

Comme le montre la figure ci-dessous, afin de dépasser les limites d’un modèle unique,Earth AI utilise « l'alignement spatial + l'intégration de la représentation » pour réaliser une collaboration multi-modèles :Les résultats des différents modèles sont cartographiés en une unité géographique unifiée et leurs représentations sont fusionnées. Par exemple, l'imagerie, la topographie et les informations climatiques du modèle de base AlphaEarth complètent les signaux d'activité humaine du modèle de population pour dresser un portrait régional complet. Le modèle fonctionne en deux phases : la première phase implique un apprentissage hors ligne, encodant des intégrations régionales compactes à l'aide de données géospatiales telles que des cartes, des tendances de recherche et des conditions environnementales ; la seconde phase utilise des intégrations pré-entraînées pour un réglage fin dynamique, prenant en charge des tâches en aval telles que l'interpolation, l'extrapolation, la super-résolution et la prévision immédiate.

Cadre en deux étapes du modèle de base de la dynamique des populations

Pour résoudre des problèmes géospatiaux complexes à plusieurs étapes, Earth AI a développé l'agent de raisonnement géospatial piloté par Gemini. Cet agent s'appuie sur le kit de développement d'agents Google (ADK) et intègre des capacités de raisonnement général à quatre fonctions professionnelles : analyse d'images, données démographiques, simulation environnementale et modélisation spatio-temporelle. Il fournit également des outils pour le traitement des données géospatiales, la génération de code et l'accès aux données Earth Engine.

Comme indiqué ci-dessous,Son travail suit la logique de base « analyser les requêtes - décomposer les tâches - appeler les outils - synthétiser les résultats ».Grâce à un processus de réponse en boucle fermée et optimisé de manière itérative (« Réfléchir et planifier » → Données/Inférence de modèle/Entraînement de modèle → Réfléchir et récupérer »), il peut traiter trois types de requêtes complexes : recherche de faits complexes, analytique et relationnelle, et prédictive. Les utilisateurs interagissant en langage naturel ou via une interface cartographique peuvent interroger des faits simples et effectuer des tâches complexes, telles que le suivi de la répartition des installations critiques lors d'événements historiques et l'anticipation des zones à haut risque et de vulnérabilité sociale. Cela répond aux besoins décisionnels, de l'analyse rétrospective à la planification prospective.

Cadre d'opérations de l'agent de raisonnement géospatial

A obtenu des performances SOTA dans plusieurs benchmarks publics, obtenant une amélioration de 64% par rapport à Gemini 2.5 Pro.

Le système expérimental d'Earth AI s'articule autour de trois niveaux : performance mono-modèle, collaboration multi-modèles et raisonnement des agents. Il évalue systématiquement deux modèles fondamentaux, l'imagerie et la population, ainsi que leurs performances globales dans les applications intégrées et le raisonnement géospatial.

Lors de la phase de vérification des performances du modèle unique, le modèle basé sur l'image a démontré des performances exceptionnelles sur plusieurs tâches. Le modèle vision-langage, basé sur les architectures SigLIP2 et MaMMUT, a atteint des performances de pointe en classification et recherche de texte sans échantillonnage lors de plusieurs benchmarks publics, certaines métriques étant même comparables à celles de modèles conversationnels génériques avec des paramètres plus importants. Le modèle de détection de vocabulaire ouvert a obtenu des mAP sans échantillonnage de 31 831 TP3T et 29 391 TP3T sur les jeux de données DOTA et DIOR, respectivement. Après un apprentissage en quelques échantillonnages avec seulement 30 échantillons par classe, le mAP a encore progressé pour atteindre plus de 531 TP3T, surpassant ainsi significativement les méthodes existantes. Le modèle principal pré-entraîné a obtenu une amélioration moyenne de 14 931 TP3T sur 13 tâches en aval couvrant la classification, la détection et la segmentation par rapport à la référence de pré-entraînement ImageNet, et a établi de nouveaux records de performance dans des tâches telles que la classification FMOW et la segmentation FLAIR.

Le modèle de base de dynamique des populations affiche d'excellentes performances en interpolation spatiale et en prédiction temporelle. Comme le montre la figure ci-dessous :Son intégration globale maintient des performances R² stables dans la tâche de prédiction des variables manquantes dans la région 20% et vérifie une bonne transférabilité dans les tests de généralisation entre pays.Sur la base d'intégrations dynamiques mensuelles construites à partir de juillet 2023, l'erreur absolue moyenne des prévisions extrapolées de visites aux urgences pour la COVID-19 et la grippe était significativement inférieure à celle des intégrations statiques, avec un avantage particulièrement significatif lors des pics épidémiques de l'automne et de l'hiver. La validation par des tiers a confirmé l'applicabilité et la robustesse du modèle dans des scénarios réels.

Erreur d'extrapolation absolue moyenne basée sur la dynamique de population dynamique et statique

Dans une expérience collaborative multi-modèle, l’intégration de la dynamique de population avec le modèle de base AlphaEarth a considérablement amélioré la précision des prévisions.Pour prédire les scores de risque de catastrophe de la FEMA pour les secteurs de recensement américains, le modèle de fusion a obtenu une amélioration moyenne du R² de 111 TP3T par rapport aux modèles individuels. Pour la prédiction de 21 indicateurs de santé des CDC, il a surpassé le modèle de population et le modèle AlphaEarth seul de respectivement 71 TP3T et 431 TP3T. De plus, le système a démontré sa capacité à combiner les prévisions de cyclones avec les modèles de population pour prédire les dommages matériels causés par les ouragans, et à collaborer avec les prévisions de séries chronologiques et les modèles météorologiques pour l'alerte au risque de choléra en République démocratique du Congo, obtenant une réduction de 341 TP3T du RMSE par rapport au modèle de référence.

Les capacités de l'agent de raisonnement géospatial ont été évaluées à l'aide de questionnaires standardisés et de tests de scénarios de crise. Dans l'ensemble de 100 questions, l'agent a obtenu un score global de 0,82, soit une amélioration de 64% par rapport à Gemini 2.5 Pro et de 110% par rapport à Flash, respectivement. Les performances de l'agent étaient particulièrement remarquables dans les tâches de raisonnement analytique. Lors de tests portant sur 10 scénarios de réponse à une crise, l'agent, après plusieurs cycles d'optimisation itérative, a systématiquement surpassé le système de référence sur l'échelle de Likert, démontrant ainsi son efficacité et sa fiabilité dans la gestion de tâches de raisonnement géospatial complexes à plusieurs étapes.

Percées technologiques et pratiques d'application de l'intelligence géospatiale

En se concentrant sur l'orientation technologique principale menée par Earth AI, les communautés universitaires et industrielles mondiales travaillent ensemble pour promouvoir l'intelligence géospatiale, de l'innovation algorithmique à la mise en œuvre systématique et basée sur des scénarios, et construire progressivement un écosystème technologique à plusieurs niveaux et hautement coordonné.

À la pointe de la recherche, la compréhension unifiée de multiples modalités constitue une avancée majeure. Grâce au cadre EarthMind, développé conjointement par l'Université de Trente (Italie), l'Université technique de Munich (Allemagne), l'Université technique de Berlin (Allemagne) et l'Institut de recherche INSAIT (Bulgarie), des équipes de recherche ont mis au point un système unifié de compréhension multi-granularité et multi-capteurs pour les scénarios de télédétection.

Titre de l'article :EarthMind : Vers une observation de la Terre multigranulaire et multicapteurs avec de grands modèles multimodaux

Lien vers l'article :https://doi.org/10.48550/arXiv.2506.01667

Par ailleurs, World Labs, fondé par Fei-Fei Li, professeur à l'Université de Stanford, a récemment lancé une version bêta limitée de son modèle d'intelligence spatiale, Marble, via la plateforme X. Ce modèle se concentre sur la technologie de génération de mondes 3D, créant des scènes 3D persistantes et librement explorables à partir d'une seule image ou d'un texte.

En termes d’applications industrielles, les entreprises intègrent activement l’intelligence géospatiale dans leurs principaux systèmes commerciaux. NVIDIA et UAE G42 ont collaboré pour créer la plateforme Earth-2.S'appuyant sur l'IA générative pour construire un système de prévision météorologique de haute précision, grâce à la collaboration du modèle mondial FourCastNet et de l'architecture de réduction d'échelle CorrDiff, il peut obtenir des résultats raffinés allant des prévisions nationales de 2 kilomètres aux prévisions météorologiques de 200 mètres au niveau de la ville, en compressant les simulations traditionnelles qui prennent plusieurs heures à quelques minutes, améliorant considérablement les capacités d'alerte et de réponse aux conditions météorologiques extrêmes. Un modèle de base d'IA géospatiale open source publié conjointement par IBM et la NASA.Ce modèle, entraîné sur des données satellitaires à grande échelle issues du projet Landsat Sentinel-2 harmonisé de la NASA et utilisant un cadre d'optimisation conjointe multitâche, prend en charge diverses applications, notamment la surveillance du changement climatique, le suivi dynamique de la déforestation et l'estimation du rendement des cultures. En termes d'optimisation du modèle, il a non seulement amélioré l'efficacité de l'entraînement de 15%, mais a également obtenu une amélioration de 15% des performances en utilisant seulement la moitié des données annotées.

De l'innovation académique à la pratique industrielle, l'intelligence géospatiale s'intègre à la compréhension et à la prise de décision humaines concernant le système terrestre avec une profondeur et une ampleur sans précédent. Grâce aux avancées continues dans des technologies clés telles que la fusion multimodale, la modélisation inter-échelles et la collaboration entre agents, des cadres d'analyse comme l'IA terrestre devraient jouer un rôle encore plus central pour relever les défis planétaires tels que la réponse au changement climatique, la prévention et le contrôle des catastrophes, et la gestion des ressources, favorisant ainsi l'évolution coordonnée de la science et de la gestion sociétale.

Liens de référence :
1. https://mp.weixin.qq.com/s/XeZdQbMvvnQId6PLWM7K1A
2. https://mp.weixin.qq.com/s/WdIq1SToGa3jmVlbGZsy8w
3. https://mp.weixin.qq.com/s/C3XqmCooqwch1JyAXCnYlQ
4. https://mp.weixin.qq.com/s/ix0r3lwiqE18gYxvJupr0g