ICML 2025 | L'Université Technique De Munich Et D'autres Ont Développé Une Méthode De Génération D'images Satellite Basée Sur SD3 Pour Construire Le Plus Grand Ensemble De Données De Télédétection Actuellement

Les images satellites sont des images de la surface terrestre obtenues grâce à la télédétection. Elles numérisent les informations terrestres en établissant une « perspective spatiale » pour permettre une détection à grande échelle, un suivi dynamique et un support de données. Dans la vie quotidienne, la gouvernance macro-environnementale et la vie micro-urbaine en sont indissociables. Par exemple, pour la surveillance forestière, les images satellites permettent de délimiter rapidement l'aire de répartition des forêts, de calculer le taux de couverture des différentes espèces forestières et de détecter les changements de couverture forestière causés par l'exploitation forestière, la plantation, les ravageurs et les maladies, etc.
Cependant,La surveillance par satellite est facilement affectée par de multiples facteurs, ce qui réduit considérablement ses performances et son effet d'application.L'interférence de la couverture nuageuse est particulièrement grave. Par exemple, dans les zones fréquemment nuageuses, la surveillance par satellite peut être interrompue pendant des jours, voire des semaines. Cela entrave non seulement la surveillance dynamique en temps réel des satellites, mais impose également de nouvelles exigences en matière de combinaison d'images satellites et de données climatiques afin d'améliorer la précision des prévisions. Le développement rapide des technologies d'intelligence artificielle et des algorithmes d'apprentissage automatique a permis de répondre à cette exigence, mais la plupart des méthodes actuelles sont conçues pour des tâches ou des régions spécifiques et manquent d'universalité pour être appliquées à l'échelle mondiale.
Pour résoudre les problèmes ci-dessus,Une équipe de l'Université technique de Munich en Allemagne et de l'Université de Zurich en Suisse a proposé une nouvelle méthode pour générer des images satellite conditionnées par des indices climatiques géographiques en utilisant Stable Diffusion 3 (SD3), tout en créant EcoMapper, l'ensemble de données de télédétection le plus grand et le plus complet à ce jour.L'ensemble de données recueille plus de 2,9 millions de données d'images satellite RVB de Sentinel-2 provenant de 104 424 sites à travers le monde, couvrant 15 types de couverture terrestre et les relevés climatiques correspondants. Il pose les bases de deux méthodes de génération d'images satellite utilisant un modèle SD3 optimisé. En combinant la génération d'images de synthèse avec des données climatiques et de couverture terrestre, la méthode proposée favorise le développement de la modélisation générative en télédétection, comble le manque d'observation dans les zones touchées par une couverture nuageuse persistante et fournit de nouveaux outils pour l'adaptation au climat mondial et l'analyse géospatiale.
Les résultats de la recherche, intitulés « EcoMapper : modélisation générative pour l'imagerie satellite sensible au climat », ont été sélectionnés pour l'ICML 2025.
Points saillants de la recherche :
* Construction d'EcoMapper, l'ensemble de données de télédétection le plus vaste et le plus complet à ce jour, contenant plus de 2,9 millions d'images satellites
* J'ai développé un modèle génératif de texte en image basé sur la diffusion stable 3 affinée pour générer des images synthétiques réalistes de zones spécifiques à l'aide d'indices textuels contenant des détails sur le climat et la couverture terrestre.
* Développé un cadre de modèle multiconditionnel (texte + image) utilisant ControlNet pour cartographier les données climatiques ou générer des séries chronologiques pour simuler l'évolution du paysage

Adresse du document :
Adresse de téléchargement du jeu de données :
Autres articles sur les frontières de l'IA :
Ensemble de données : L'ensemble de données de télédétection le plus vaste et le plus complet à ce jour
EcoMapper est l’ensemble de données de télédétection le plus vaste et le plus complet à ce jour.L'ensemble de données comprend 2 904 000 images satellites avec des métadonnées climatiques, échantillonnées à partir de 104 424 emplacements géographiques à travers le monde.Il couvre 15 types d'occupation du sol différents, comme le montre la figure ci-dessous :


dans,L'ensemble d'entraînement contient 98 930 points géographiques et la période d'observation pour chaque point est de 24 mois.Les chercheurs ont sélectionné une observation par mois pour chaque lieu sur deux ans, en fonction des jours les moins nuageux, ce qui a donné lieu à une séquence de 24 images par lieu. La période d'observation de deux ans a été répartie aléatoirement entre 2017 et 2022.
L'ensemble de test contient 5 494 points géographiques.La période d’observation pour chaque site est de 96 mois (8 ans), s’étendant de 2017 à 2024, et le suivi est également effectué mensuellement.
D’un point de vue spatial, la zone de couverture spatiale de chaque observation est d’environ 26,21 kilomètres carrés.L'ensemble de données couvre environ 2 704 000 kilomètres carrés, soit environ 2 051 TP3T de la superficie totale de la Terre.Ces données garantissent une indépendance spatiale et temporelle suffisante dans l’évaluation, permettant une évaluation robuste de la généralisation du modèle à travers différentes régions et conditions climatiques invisibles.
De plus, chaque site d'échantillonnage est enrichi de métadonnées, notamment la localisation géographique (latitude et longitude), la date d'observation (année et mois), le type de couverture terrestre et la couverture nuageuse, ainsi que la température moyenne mensuelle, le rayonnement solaire et les précipitations totales, fournies par NASA Power. Ces données démontrent les avantages pour l'agriculture, la foresterie, la couverture terrestre et la biodiversité.
Architecture du modèle : modèle de génération texte-image et modèle de génération multiconditionnelle
L’objectif de cette recherche est de synthétiser des images satellite conditionnées par des métadonnées géographiques et climatiques pour permettre des prédictions réalistes des conditions environnementales.Les chercheurs ont dû s’attaquer à deux tâches clés : la génération de texte en image et la génération d’images multiconditionnelles.
Les chercheurs ont évalué la capacité de deux modèles génératifs à intégrer les métadonnées climatiques dans la synthèse d'images satellites :
Le premier est Stable Diffusion 3.Il s'agit d'un modèle de diffusion latente multimodale intégrant les encodeurs de texte CLIP et T5 pour permettre des réglages flexibles des conditions d'invite. Les chercheurs ont utilisé l'ensemble de données collectées pour affiner Stable Diffusion 3 afin qu'il puisse s'appuyer sur des images satellite réalistes avec des métadonnées géographiques, climatiques et temporelles.
Le deuxième est DiffusionSat,Il s'agit d'un modèle de base spécifiquement conçu pour l'imagerie satellitaire, basé sur la diffusion stable 2 et enrichi d'une couche d'intégration de métadonnées dédiée au conditionnement numérique. Comparé aux modèles de diffusion classiques, ce modèle est spécialement conçu pour les tâches de télédétection. Il permet de coder des attributs spatiaux et temporels clés et offre des capacités de super-résolution, de restauration d'images et de prédiction temporelle.
Pour la tâche de génération de texte en image, les chercheurs ont comparé différentes configurations de Stable Diffusion 3 et de DiffusionSat, y compris des modèles affinés et non affinés, et ont mené des expériences à différentes résolutions :
* Modèles de base : les deux modèles sont évalués à une résolution de 512 x 512 sans réglage fin.
* Modèles affinés (-FT) : Les deux modèles ont été évalués après un affinement à l’aide de métadonnées climatiques à une résolution de 512 x 512.
* Modèle SD3 haute résolution : SD3 est affiné et testé à l'aide de métadonnées climatiques à une résolution de 1024 x 1024, étiquetées SD3-FT-HR.
Pour les tâches de génération d'images multiconditionnelles,Les chercheurs ont choisi d'utiliser un modèle Stable Diffusion 3 affiné, amélioré avec la technologie LoRA (adaptation de bas rang) pour effectuer des tâches de génération d'images multiconditionnelles.Le modèle a été entraîné à une résolution de 512 x 512 pixels afin de générer des images de haute qualité et contextuellement pertinentes. L'étude a utilisé la technologie ControlNet pour construire un mécanisme à double condition :
* ControlNet améliore le modèle de diffusion en intégrant un contrôle spatial explicite au processus de génération. Cette conception garantit que le bloc de contrôle a un impact initial minimal sur le bloc principal, fonctionnant comme un lien de saut.
* Images satellites comme signaux de contrôle :Les images satellite des mois précédents servent de signaux de contrôle pour maintenir la structure spatiale des images générées, garantissant ainsi que les reliefs, les configurations urbaines et autres caractéristiques géographiques restent inchangés. Cela permet au modèle d'intégrer les changements au fil du temps, reflétant ainsi les changements environnementaux du monde réel.
* Conseils climatiques :Spécifier les conditions climatiques et atmosphériques pour générer des images satellites à l'aide d'un mécanisme de conditionnement textuel.
En combinant ces deux facteurs d'ajustement, l'étude permet au modèle de générer des images satellite réalistes intégrant le changement climatique tout en préservant la cohérence spatiale. Cette approche permet également la génération de séries chronologiques, permettant de simuler l'évolution du paysage dans des conditions climatiques changeantes. Comme le montre la figure ci-dessous :

Le cadre de Stable Diffusion 3 et ControlNet est intégré pour réaliser la génération d'images satellite multi-conditions
En termes de structure rapide, afin de générer efficacement des images satellites,Les chercheurs ont conçu deux types d’invites pour guider la génération d’images satellites, à savoir des invites spatiales et des invites climatiques.Le premier est utilisé pour encoder les métadonnées de base, notamment le type d'occupation du sol, la localisation, la date et la couverture nuageuse, afin de garantir la cohérence de l'image générée avec le contexte géographique et temporel ; le second intègre les variables climatiques mensuelles (température, précipitations et rayonnement solaire) basées sur des indices spatiaux afin de fournir des informations plus riches sur les conditions environnementales pour la génération d'images. Les deux indices utilisent l'encodeur de texte de Stable Diffusion 3, les informations spatiales étant traitées par CLIP et les données climatiques par l'encodeur T5.
Résultats expérimentaux : Les performances de génération dépassent le modèle de base, mais il y a encore une marge d'amélioration
Les chercheurs ont conçu un système expérimental multidimensionnel et vérifié les performances du modèle génératif conçu dans la génération d'images satellites sensibles au climat grâce à de multiples comparaisons et expériences horizontales et verticales.
Dans un premier temps, les chercheurs ont identifié cinq indicateurs établis :Incluant la distance d'entrée de Fréchet (FID), la similarité des patchs d'images perceptuelles apprises (LPIPS), l'indice de similarité structurelle (SSIM), le rapport signal/bruit maximal (PSNR) et le score CLIP. Parmi ces mesures, la FID et la LPIPS évaluent la similarité de la distribution des images et la différence perceptuelle, le SSIM et le PSNR mesurent la cohérence structurelle et la qualité de la reconstruction, et le score CLIP évalue l'alignement texte-image.
En termes de génération de texte en image, les chercheurs ont vérifié l'efficacité du modèle conçu en comparant les performances de Stable Diffusion 3 et DiffusionSat et de leurs versions affinées (SD3-FT et DiffusionSat-FT) et SD3-FT-HR sur 5 500 points géographiques.
Comme le montre la figure ci-dessous. Les modèles de base SD3 et DiffusionSat ont les scores d’évaluation les plus bas.Cependant, ce dernier est nettement plus performant que le premier, ce qui montre les avantages de la préformation par télédétection ; et les indicateurs de tous les modèles de réglage fin sont considérablement améliorés.SD3-FT fonctionne mieux en CLIP, SSIM et PSNR, tandis que DiffusionSat-FT fonctionne mieux en FID et LPIPS. SD3-FT-HR a le FID le plus bas (des valeurs FID inférieures indiquent une authenticité plus élevée), qui est de 49,48, indiquant que ses images générées ont des détails plus fins.

L'analyse des résultats qualitatifs montre que le modèle conçu peut capturer la texture régulière des terres agricoles et des prairies et les caractéristiques du terrain montagneux, en particulier SD3-FT-HR fonctionne mieux dans les changements de densité de végétation et les détails haute résolution.
Dans l’analyse de sensibilité climatique, comme le montre la figure ci-dessous,La densité de végétation générée par le modèle est significativement corrélée au changement climatique.L'étude a réalisé un test de contrainte quantitatif du modèle SD3-FT sur des échantillons présentant des conditions météorologiques extrêmes. Les résultats ont montré qu'en conditions de température et de rayonnement élevés, le FID des images générées par le modèle était plus faible (par exemple, le FID à rayonnement élevé était de 107,34) et la végétation plus visible ; l'inverse était vrai en conditions de basse température et de faible rayonnement, et l'effet de simulation était légèrement moins bon.

Images satellite générées par SD3-FT pour différentes régions soumises à des conditions climatiques extrêmes

Dans la tâche de génération d'images multiconditionnelles, la génération multiconditionnelle combinée à ControlNet surpasse le modèle texte-image dans tous les indicateurs.Par exemple, le FID de SD3 ControlNet est de 48,20. De plus, l'image générée et l'image en temps réel montrent un alignement spatial précis, conservant les principales caractéristiques géographiques tout en intégrant les changements climatiques spécifiques. Comme le montre la figure suivante :


Dans le test de robustesse, le type de couverture terrestre a un impact plus important sur la stabilité de la génération du modèle.Les types courants tels que les prairies et les savanes présentent une stabilité de génération élevée et un faible FID ; les types complexes ou rares tels que les zones humides et les villes présentent des FID plus élevés, par exemple 284,65 pour les villes, ce qui s'explique par un manque de données d'entraînement. De plus, les performances du modèle sur l'ensemble de test de 2017 à 2024 sont stables, et aucune dégradation des performances n'est constatée sur l'ensemble de données de 2023 à 2024, ce qui prouve que le modèle conçu conserve une grande adaptabilité à des scénarios spatio-temporels inédits.
En résumé, EcoMapper introduit un cadre génératif pour la simulation d'images satellites basées sur des variables climatiques, dans le but de modéliser la réaction des paysages aux conditions météorologiques et au changement climatique à long terme. Cela ouvre de nouvelles perspectives pour la visualisation des impacts du changement climatique, l'exploration de scénarios et l'amélioration des modèles en aval intégrant des données satellites et climatiques, comme la prévision du rendement des cultures, la surveillance de l'utilisation des terres ou le remplissage d'images de zones nuageuses.
Les algorithmes d'apprentissage automatique ouvrent un nouveau paradigme pour la génération d'images satellites
L'application de modèles génératifs à la génération d'images satellites réalise des avancées majeures grâce à la technologie d'apprentissage profond, qui combine les capacités d'apprentissage profond des réseaux neuronaux avec des données satellitaires massives pour générer des images de télédétection multimodales réalistes à haute résolution. Outre ce qui précède, la communauté de recherche dans ce domaine a depuis longtemps formé une « course de relais » et, grâce à l'innovation continue des méthodes et des approches, a ouvert la voie à la recherche sur les images satellites.
Par exemple, DiffusionSat mentionné dans l’article est le premier modèle de diffusion à grande échelle conçu spécifiquement pour les images satellites, prenant en charge l’entrée multispectrale, la génération de séries chronologiques et la super-résolution.Il utilise de manière innovante des métadonnées telles que la localisation géographique comme informations conditionnelles pour résoudre le problème du manque d'annotations textuelles dans les images satellites.La recherche connexe a été publiée par une équipe de l'Université de Stanford, intitulée « DIFFUSIONSAT : UN MODÈLE DE FONDATION GÉNÉRATIVE POUR L'IMAGERIE SATELLITE », et a été incluse dans l'ICLR 2024.
Adresse du document :
https://arxiv.org/pdf/2312.03606
Par ailleurs, une équipe de l'Université d'aéronautique et d'astronautique de Pékin a publié une étude intitulée « MetaEarth : un modèle de base génératif pour la génération d'images de télédétection à l'échelle mondiale ». Elle a proposé un modèle de génération à l'échelle mondiale appelé MetaEarth.Grâce au cadre d'auto-cascade guidé par la résolution, le modèle est capable de générer des images géographiques haute résolution à partir de basses résolutions par étapes.La stratégie de fenêtre coulissante et de partage du bruit est utilisée pour obtenir une couture sans bordure.
Adresse du document :
https://arxiv.org/pdf/2405.13570
Par ailleurs, des chercheurs du MIT, de l'Université Columbia, de l'Université d'Oxford et d'autres équipes ont également démontré les progrès de la recherche sur les modèles visuels génératifs dans la synthèse d'images satellites pour la visualisation du changement climatique. Ils ont proposé une méthode appelée Earth Intelligence Engine (EIE).Combinant des projections de modèles d'inondation basés sur la physique et des images satellites comme données d'entrée d'un modèle visuel génératif profond,Ceci est réalisé en évaluant l'intersection de l'image générée et des données d'inondation. Les résultats montrent que la méthode offre de bonnes performances en termes de cohérence physique et de qualité visuelle, surpassant le modèle de référence sans conditions physiques, et qu'elle offre des capacités de généralisation à différentes données de télédétection et événements climatiques. Le titre de l'article est « Génération d'images satellites physiquement cohérentes pour les visualisations climatiques ».
Adresse du document :
https://arxiv.org/html/2104.04785v5
Il ne fait aucun doute que les modèles génératifs transforment la génération et le champ d'application des images satellites, de l'alerte aux inondations aux modèles de surface génératifs à l'échelle mondiale, de la fusion de données multispectrales à la simulation dynamique spatio-temporelle, ce qui témoigne non seulement de avancées technologiques majeures, mais aussi d'un fort potentiel d'application. Je suis convaincu que, dans un avenir proche, grâce à l'optimisation de technologies telles que les modèles de diffusion et les cadres d'auto-cascade, les modèles génératifs devraient donner une impulsion plus forte au développement des images satellites.
Références :
1.https://arxiv.org/pdf/2312.03606
2.https://arxiv.org/html/2104.04785v5
3.https://arxiv.org/pdf/2405.13570