HyperAI

Applications Géoscientifiques Multidisciplinaires : L'équipe De L'université Du Zhejiang a Proposé Une Série De Méthodes GeoAI Pour Aider À La Modélisation Et À La Prédiction Spatiotemporelles Dans Les Domaines De La Géographie, De L'océanographie, De La Géologie Et De L'atmosphère

特色图像

En tant que domaine hautement interdisciplinaire, les sciences de la Terre connaissent une transformation majeure menée par l’IA. En exploitant des informations potentielles et en découvrant des modèles cachés dans des données massives des sciences de la Terre, l'IA peut non seulement approfondir la compréhension des phénomènes naturels de la Terre, mais également optimiser la modélisation et la prédiction des chercheurs sur les relations non linéaires spatio-temporelles entre différents facteurs des sciences de la Terre, et promouvoir la formation d'un nouveau paradigme de recherche.

Récemment, lors du forum COSCon'24 AI for Science produit conjointement par HyperAI,Qi Jin, chercheur à l'École des sciences de la Terre de l'Université du Zhejiang, a partagé avec tout le monde les limites de la modélisation géographique traditionnelle et l'impact des méthodes traditionnelles basées sur l'IA sur l'analyse des prix de l'immobilier, la télédétection océanique, la pollution de l'air, la prédiction de la minéralisation et d'autres domaines sous le thème « GeoAI et ses applications géoscientifiques interdisciplinaires ».

Discours du professeur Qi Jin

HyperAI a compilé et résumé le partage approfondi de M. Qi Jin sans violer l’intention initiale. Voici la transcription du discours.

Les applications interdisciplinaires de GeoAI couvrent l'analyse des prix de l'immobilier, la télédétection océanique, la pollution de l'air et la prédiction de la minéralisation.

Avec les progrès continus de la technologie d’observation, les données spatio-temporelles dans le domaine des sciences de la Terre ont explosé. Ces données peuvent être largement utilisées dans la recherche scientifique telle que la modélisation de l’environnement marin, l’analyse des causes des prix de l’immobilier, l’exploration de la distribution spatiale des minéraux et la simulation de la pollution atmosphérique par les PM2,5.

Dans le passé, nous avons utilisé le modèle traditionnel de régression pondérée géographiquement (GWR) pour analyser l’impact de la localisation géographique sur la relation entre les variables afin d’analyser ou de prédire l’hétérogénéité spatiale de l’objet cible. Il existe cependant des interactions complexes entre différentes données.Comment construire des structures de modèles plus sophistiquées et modéliser des objets à plus grande échelle est devenu un défi important.

Afin de s'adapter au développement de l'intelligence artificielle et du big data et de faire face à des problèmes de modélisation complexes dans le monde réel,Nous combinons le concept de régression géographique pondérée traditionnelle avec la technologie des réseaux neuronaux et proposons un nouveau type de modèle, comprenant la régression géographique pondérée par les réseaux neuronaux (GNNWR) et la régression géographique spatiotemporelle pondérée par les réseaux neuronaux (GTNNWR).

Depuis la publication du premier article, une série de méthodes telles que GNNWR et GTNNWR ont attiré beaucoup d’attention et ont été largement utilisées en océanographie, en géographie, en sciences atmosphériques, en géologie et dans d’autres domaines. Plus de 30 articles connexes ont été publiés. Ces réalisations ne se limitent pas aux recherches méthodologiques et aux recherches appliquées publiées au sein de notre équipe. Il existe également de nombreuses équipes externes qui utilisent des idées de modélisation ou des architectures techniques similaires pour mener des recherches. Actuellement, GNNWR est open source sur GitHub et prend en charge l'appel direct de pip install gnnwr (Python ≥ 3.9).

Adresse open source du GNNWR :
https://github.com/zjuwss/gnnwr

Prenons l’exemple de l’analyse des prix de l’immobilier :Comme nous le savons tous, les prix des logements sont considérablement influencés par la situation géographique. Les attractions touristiques, l’emplacement des districts scolaires, etc. affectent directement le niveau des prix des logements. La géographie utilise l’analyse statistique pour révéler quels facteurs peuvent affecter les prix des logements. Comparé aux modèles de régression traditionnels, le modèle GNNWR présente non seulement une précision d'ajustement plus élevée, mais également une meilleure interprétabilité et peut révéler en profondeur le mécanisme d'action et les différences spatiales des facteurs affectant les prix des logements. Le contenu spécifique de cette étude sera présenté en détail ultérieurement.

Article original :
https://www.mdpi.com/2220-9964/11/8/450

https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

En termes de modélisation de l'environnement écologique marin,Les images océaniques acquises depuis l’espace par des satellites de télédétection contiennent de riches informations sur les bandes passantes. Sur la base de la distribution spatiale différente de ces informations de bande, nous pouvons analyser le contenu des éléments écologiques marins tels que la chlorophylle et les sédiments en suspension.

Ces dernières années, la distribution temporelle et spatiale du silicate, un nutriment important dans l’océan, peut également être estimée à l’aide du modèle GTNNWR. La réduction des silicates peut conduire à l’apparition de marées rouges côtières. Le modèle GTNNWR peut être utilisé pour obtenir les changements dynamiques spatio-temporels à petite échelle des silicates dissous dans les eaux côtières, fournissant ainsi des signaux d'alerte précoce par télédétection pour l'apparition de marées rouges côtières. Le contenu spécifique de cette étude sera décrit en détail ultérieurement.

Un autre exemple est la pollution aux PM2,5.Certaines villes industrielles lourdes du nord pourraient être la principale source de pollution. Le modèle GNNWR est capable d’établir des relations de régression spatialement non stationnaires, d’estimer les concentrations de PM2,5 et de fournir une distribution de PM2,5 de haute précision et raisonnablement détaillée à travers le pays. Par exemple, grâce à la modélisation géospatiale, nous avons constaté que les concentrations de PM2,5 sont généralement élevées de Pékin à Lianyungang, ce qui peut être affecté par des facteurs tels que la direction et la vitesse du vent. De plus, des brise-vent dans des zones spécifiques peuvent empêcher la propagation des PM2,5.

Article original :
https://www.mdpi.com/2072-4292/13/10/1979

Dans le domaine de la géologie, notamment dans la prévision de la distribution spatiale des gisements d'or,Nous avons mené une série d’études pour révéler l’impact des facteurs géologiques sur la probabilité de formation de gisements d’or. Dans le modèle construit, nous avons introduit la méthode Shapley pour améliorer l’interprétabilité du modèle et obtenir une prédiction et une interprétation précises de la minéralisation dans des environnements spatiaux complexes.

Plus de détails : Meilleur que les cinq modèles avancés, le modèle GNNWLR proposé par l'équipe de Du Zhenhong à l'Université du Zhejiang : améliore la précision de la prédiction de la minéralisation

Utiliser les prix des hamburgers comme exemple pour explorer les limites de la modélisation géographique traditionnelle

Dans le domaine statistique traditionnel, si nous voulons explorer les facteurs qui affectent la concentration de PM2,5, nous utilisons généralement une analyse de régression linéaire multiple, c'est-à-dire que x représente la variable indépendante, y représente la variable dépendante et nous explorons la relation entre y et x. Cependant,Dans le domaine de la recherche géographique, compte tenu des différences dans les relations entre les variables causées par la localisation spatiale, les méthodes statistiques traditionnelles ont du mal à modéliser des phénomènes naturels aussi complexes.

Prenons l’exemple du prix des hamburgers. Soit y le prix d’un hamburger. Le prix d'un hamburger à Pékin est de 25 yuans, tandis qu'à Hangzhou il est de 15 yuans. Si nous utilisons une modélisation linéaire simple, étant donné que le Jiangsu est situé entre Pékin et Hangzhou, nous pourrions prédire que le prix d'un hamburger au Jiangsu est de 20 yuans. Cependant, les facteurs géographiques ne constituent pas une relation linéaire aussi simple. Le prix des hamburgers est également affecté par de multiples facteurs tels que les coûts logistiques, les conditions de transport et les coûts des matières premières. La répartition de ces facteurs dans l’espace varie.Cela signifie que les pondérations de divers facteurs à différents emplacements géographiques doivent être prises en compte lors de la modélisation.

Pour aborder plus en détail le problème de la modélisation des relations géographiques, les géographes ont étendu la régression linéaire multiple traditionnelle à la régression pondérée géographiquement (GWR).Dans le GWR, le coefficient de régression β avant que chaque variable indépendante ne soit dotée de la caractéristique de varier en fonction de la situation géographique.Autrement dit, le poids de chaque coefficient de régression change avec le changement de position spatiale. Ce changement est ce que nous appelons souvent « non-stationnarité spatiale », ce qui signifie que la relation entre la variable indépendante et la variable dépendante n’est pas une relation linéaire stable, mais fluctue.

Comment calculer les coefficients de régression pondérés géographiquement ? Le noyau comprend deux points : le premier consiste à calculer une distance spatiale précise et le second à sélectionner la fonction d'ajustement la plus précise parmi de nombreuses fonctions du noyau.

En termes de calcul de distance spatiale, en plus de la distance euclidienne, il existe également le calcul de la distance de Manhattan. En supposant que Hangzhou est à 200 kilomètres de Nanjing et que Pékin est également à 200 kilomètres de Nanjing, si elle est calculée sur la base de la distance euclidienne, la distance en ligne droite entre les deux endroits peut être calculée à l'aide du théorème de Pythagore. Mais dans la pratique, la distance entre Dalian et Yantai en bateau peut n'être que d'environ 100 kilomètres, tandis que prendre le train à grande vitesse nécessite un détour plus long, et la distance réelle peut dépasser 300 kilomètres.Par conséquent, dans la modélisation géospatiale, le choix de la méthode de calcul de distance est crucial.

Deuxièmement, nous avons introduit le concept de « fonction noyau » et dessiné un graphique en colline de la fonction noyau, comme le montre la figure ci-dessous. Plus on s'éloigne du point d'analyse (point rouge), plus le poids est faible, mais cette relation n'est pas une simple relation décroissante, mais fluctue avec la distance spatiale.Lorsque les géographes construisent des modèles, ils ont le choix entre de nombreuses fonctions de noyau de pondération, telles que les fonctions gaussiennes, les fonctions exponentielles, etc.

En résumé, l’incertitude de la mesure de la distance spatiale et le choix de la fonction noyau pour ajuster au mieux les données sont les principaux problèmes affectant la précision de la modélisation géographique.

Fusionner la modélisation géographique traditionnelle avec l'IA

La non-linéarité complexe est une caractéristique inhérente aux différents facteurs du monde réel. L’apprentissage automatique et les réseaux neuronaux sont nés pour résoudre de tels problèmes.

Dans le domaine de la modélisation géographique, la distance spatiale entre deux points est souvent non linéaire et les poids décrits par la fonction noyau changent également de manière non linéaire. Nous combinons donc le concept traditionnel de régression pondérée géographiquement (GWR) avec la technologie des réseaux neuronaux.Une nouvelle classe de modèles de méthodes est proposée, notamment la régression pondérée par réseau neuronal géographique (GNNWR) et la régression pondérée par réseau neuronal spatiotemporel géographique (GTNNWR).

Articles connexes :

https://www.tandfonline.com/doi/full/10.1080/13658816.2019.1707834

https://www.tandfonline.com/doi/full/10.1080/13658816.2020.1775836

https://www.tandfonline.com/doi/full/10.1080/13658816.2022.2100892

Cette méthode présente deux caractéristiques principales : tout d’abord, un réseau neuronal est construit spécifiquement pour calculer la distance spatiale. Quelle que soit la distance réelle (100 ou 300 kilomètres), le réseau neuronal peut déterminer la distance la plus appropriée pour la modélisation entre deux points grâce au Big Data. Deuxièmement, la méthode conçoit un réseau de pondération spatio-temporel, à savoir un réseau neuronal pondéré spatialement, qui est chargé de calculer la valeur de pondération de sortie en fonction de la distance spatiale de l'entrée.Dans ce processus, nous n’avons pas besoin de déterminer à l’avance quelle fonction du noyau utiliser. Au lieu de cela, le réseau neuronal apprend lui-même les caractéristiques des données et construit automatiquement des pondérations géographiques en fonction de celles-ci. Grâce à l'application imbriquée des deux réseaux neuronaux ci-dessus, une prédiction précise de la variable correspondante y est finalement obtenue.

Contrairement aux méthodes traditionnelles, GNNWR peut calculer avec précision le coefficient β devant la variable indépendante.Pour un affichage plus intuitif, nous visualisons le coefficient de régression β, comme indiqué dans la figure suivante. La répartition du poids est en losange orange, β Il présente un modèle de distribution unique avec des poids élevés en haut et en bas et des poids faibles au milieu, tandis que β Elle présente une distribution circulaire centrale.

Comme le montre la figure ci-dessous,La précision du GWR combiné au réseau neuronal sur l'ensemble d'entraînement et l'ensemble de test est considérablement améliorée.

Application du GNNWR à la modélisation des prix de l'immobilier et de l'environnement écologique marin

Les prix des logements ne sont pas seulement liés au lieu de travail, mais doivent également prendre en compte des facteurs tels que le transport, le district scolaire et l’environnement.Dans la modélisation des prix de l'immobilier, nous avons pris comme exemple les prix de l'immobilier à Wuhan et avons collecté des données à partir de près de 1 000 enregistrements de transactions de logements d'occasion, en les divisant en ensembles d'entraînement et de test dans un rapport de 85:15. La raison pour laquelle on choisit des logements d’occasion est qu’ils sont moins affectés par la réglementation politique et sont plus proches de l’effet réel des flux économiques.

Au cours de la recherche, nous avons suivi le processus de modélisation de réseau neuronal conventionnel, divisé l’ensemble de test en un ensemble d’entraînement et collecté une série de variables susceptibles d’affecter les prix des logements. La particularité de ce cas est qu’il introduit un nouveau concept de « distance spatiale ». En plus de la distance euclidienne traditionnelle, nous avons également proposé une « distance de trajet domicile-travail » basée sur les conditions de circulation réelles. En établissant une fonction de fusion de distance,Nous introduisons ensemble la distance de trajet et la distance euclidienne dans le réseau neuronal pour déterminer la distance non linéaire après la fusion des deux.

La structure globale du modèle n’a pas été modifiée de manière significative. Il saisit également le poids w correspondant de chaque facteur et génère le prix final de la maison y. Grâce à des expériences comparatives, nous prouvons queEn considérant à la fois la distance euclidienne et la distance de trajet, les performances du modèle sont 12% supérieures à celles de la modélisation traditionnelle, ce qui est supérieur à l'amélioration lorsqu'une seule distance est entrée séparément dans le réseau neuronal.

L’étude a également révélé la corrélation entre les prix de l’immobilier à Wuhan et la répartition des villes universitaires, des instituts de recherche, des entreprises technologiques et des attractions touristiques.De plus, le modèle proposé est particulièrement efficace pour prédire les prix des logements dans les zones éloignées du centre-ville. Plus précisément, à mesure que la distance par rapport au centre-ville augmente, la précision de prédiction du modèle augmente également. Cela montre que dans les zones périphériques urbaines, des méthodes spéciales de mesure de la distance peuvent capturer plus précisément les tendances des variations des prix des logements.

En termes de modélisation de l'environnement écologique marin,Prenons l’exemple du barrage des Trois Gorges sur le fleuve Yangtze. Le barrage interceptera le limon et rendra l’eau plus claire, mais il empêchera également un nutriment important de pénétrer dans l’océan : le silicate. La réduction des silicates entraînera une augmentation de la proportion de marées rouges toxiques et nocives le long des côtes. Les méthodes de recherche traditionnelles estiment approximativement la tendance du flux de nutriments en dessinant des cartes de contour. Cependant, dans le contexte de la nouvelle ère, la manière d’utiliser les images satellites de télédétection à haute résolution temporelle et spatiale pour explorer la distribution des nutriments est devenue un nouveau sujet. À cet égard, nous avons proposé une approche de modélisation non linéaire basée sur GeoAI, dans l’espoir de tirer parti des avantages du big data pour réaliser l’analyse des nutriments marins, etc.

Cette étude a adopté la méthode GNNWR développée indépendamment par l’équipe. Les caractéristiques de cette méthode sont présentées dans la figure ci-dessous. En outre, nous avons également effectué des opérations telles que la mise en correspondance des ensembles de données, l’estimation spatio-temporelle par télédétection et la complétion des données manquantes.

Au cours du processus de recherche, nous avons coopéré avec le Département de gestion de la surveillance marine de la province du Zhejiang, utilisé les données de surveillance qu'il a publiées et les avons combinées avec la célèbre API Google Earth Engine Map pour télécharger les images de télédétection requises. Nous avons ensuite défini son temps, sa localisation spatiale et sa résolution, et l'avons divisé en ensemble d'entraînement, ensemble de test et ensemble de validation selon des procédures standard. Nous avons mis en œuvre une validation croisée en 10 étapes et sélectionné les résultats les meilleurs et les plus stables pour la modélisation.

Grâce à la modélisation, nous avons cartographié les changements de distribution temporelle et spatiale des silicates quotidiens dans les océans du Zhejiang au cours des neuf dernières années. Il a été observé qu’en août de chaque année, la teneur en silicate est faible en raison des activités fréquentes des organismes marins et des plantes. En septembre et octobre, lorsque le fleuve Yangtze se jette dans les eaux côtières du Zhejiang, la teneur en nutriments de la région augmente considérablement.

Comme le montre la figure ci-dessous, la courbe bleue représente la teneur en silicate et la courbe orange la direction et la vitesse d'écoulement du fleuve Yangtze. Nous pouvons voir qu'il existe une corrélation significative entre la teneur en silicate et la distribution de l'eau du fleuve Yangtze qui traverse le Zhejiang, le coefficient de Pearson atteignant 0,462.Cela prouve que l’impact des eaux du fleuve Yangtze sur les eaux du Zhejiang est chaque année plus évident en automne et en hiver.

De plus, nous avons utilisé des données à haute résolution temporelle et spatiale pour analyser les changements dans l’activité biologique marine. L'étude a révélé que pendant la période de marée rouge dans les eaux côtières du Zhejiang, la courbe concernée a chuté deux fois en deux semaines, ce qui indique queLa méthode d’IA peut non seulement améliorer la précision du modèle, mais également révéler des changements subtils dans le temps et l’espace, ou fournir des signaux importants pour la surveillance en temps réel et l’alerte précoce des proliférations de diatomées.

En ce qui concerne l’impact des typhons côtiers, nous avons remarqué que les niveaux de nutriments atteignaient un pic le jour où le typhon atteignait l’océan et revenaient à leurs niveaux d’origine trois jours plus tard.Ce phénomène est attribué à la perturbation des eaux souterraines causée par les typhons, qui provoque le transport des nutriments du fond marin des profondeurs vers la surface de la mer. Cependant, après le typhon, la teneur en nutriments revient rapidement à son état d’origine, confirmant le mécanisme déduit dans la recherche océanographique traditionnelle à partir d’une perspective axée sur les données.

En résumé,Cette étude fournit un signal de prédiction pour l’alerte précoce des marées rouges au large et vérifie l’impact des typhons sur les changements temporels et spatiaux de l’océan. L’équipe a publié une série d’articles dans le domaine océanique, explorant les changements dans la distribution temporelle et spatiale de la qualité de l’eau océanique, et pourrait former de nouvelles directions de recherche à poursuivre à l’avenir.

À propos de l'École des sciences de la Terre de l'Université du Zhejiang

L'orateur invité de cette séance de partage, M. Qi Jin, est issu de l'École des sciences de la Terre de l'Université du Zhejiang.Sa direction de recherche est le développement d'une plateforme d'analyse de données volumineuses en océanographie et géosciences par intelligence artificielle. Il a présidé de nombreux projets de recherche scientifique importants, notamment des sous-projets du programme national de recherche et développement clé du « 14e plan quinquennal » et des projets de la Fondation nationale des sciences naturelles. Il a été directeur technique de la plate-forme de services intelligents d'information multisource sur l'environnement écologique des eaux côtières du Zhejiang et a remporté le premier prix du prix des sciences et technologies de l'ingénierie marine.

Page d'accueil personnelle de Qi Jin :

https://person.zju.edu.cn/qijin

Son équipe, dirigée par le professeur Du Zhenhong et le professeur Wu Sensen, a obtenu une série de résultats dans les domaines des géosciences et des sciences de l’information ces dernières années.La série de modèles GNNWR proposée par l'équipe est largement utilisée par les talents de l'industrie, et le modèle a été téléchargé, appelé et cité plus de 10 000 fois au total. À l’avenir, l’équipe s’engage à développer pleinement la théorie et les méthodes SIG, ainsi que la technologie de la plate-forme d’analyse intelligente géoscientifique, et à continuer d’explorer le développement de GeoAI.

Page d'accueil personnelle du chef de l'équipe de recherche du GNNWR, Wu Sensen, et une brève introduction au modèle de régression intelligente spatio-temporelle :

https://mypage.zju.edu.cn/wusensen/#977161

L'équipe recrute des stagiaires postdoctoraux et des assistants de recherche. Les chercheurs ayant une formation en SIG, télédétection, géographie, océanographie, géologie, informatique et technologie sont invités à nous rejoindre. Nous accueillons également des jeunes talents exceptionnels venus d'outre-mer et toutes sortes de talents de haut niveau pour nous rejoindre !