HyperAIHyperAI

L'Université Des Sciences Et Technologies De Hong Kong Et d'autres Ont Proposé Le Modèle De Prévision Météorologique Incrémental VA-MoE, Qui a Simplifié Les Paramètres Par 75% Et Atteint Toujours Les Performances SOTA.

特色图像

La prévision météorologique, domaine clé influençant les opérations sociales et les décisions de prévention des catastrophes, a toujours été confrontée à d'énormes défis liés à la complexité et à l'évolution constante du système atmosphérique. Chaque amélioration des capacités de prévision a des répercussions profondes sur la production et la vie humaines. La prévision numérique du temps (PNT) est depuis longtemps l'approche dominante dans ce domaine. S'appuyant sur les équations de la dynamique atmosphérique, elle simule l'évolution de variables clés telles que la température, la pression atmosphérique et la vitesse du vent en résolvant des équations aux dérivées partielles, permettant ainsi une déduction numérique des systèmes météorologiques.

Ces dernières années, avec la percée de la technologie de l’intelligence artificielle, l’apprentissage en profondeur a montré un grand potentiel dans la modélisation météorologique avec sa puissante capacité de reconnaissance de modèles spatio-temporels.Cela a donné naissance au domaine interdisciplinaire émergent de « l'intelligence artificielle pour la météo (AI4Weather) ».Cependant,La plupart des modèles météorologiques d'IA existants reposent sur l'hypothèse idéale selon laquelle toutes les variables météorologiques peuvent être obtenues simultanément lors de l'apprentissage et de la prévision. Cette hypothèse est totalement incompatible avec la réalité des observations, où les sources de données sont diverses et la fréquence de collecte variable.Par exemple, la température en haute altitude dépend de satellites ou de radiosondes, dont la mise à jour est lente. Parallèlement, les précipitations de surface et la vitesse du vent sont surveillées en temps réel par des stations densément peuplées. Cette asynchronie des données nécessite un réapprentissage complet du modèle lors de l'introduction de nouvelles variables, ce qui engendre des coûts de calcul extrêmement élevés.

Pour relever ce défi,Des équipes de recherche de l'Université des sciences et technologies de Hong Kong, de l'Université du Zhejiang et d'autres institutions ont conçu un nouveau paradigme pour la « prévision météorologique incrémentale (IWF) » et ont lancé le « mélange adaptatif variable d'experts (VA-MoE) ».Le modèle utilise des mécanismes d'apprentissage progressif et d'intégration d'indices variables pour guider les différents modules experts afin qu'ils se concentrent sur des types spécifiques de variables météorologiques. Lorsque de nouvelles variables ou stations sont ajoutées, le modèle peut être étendu sans réapprentissage complet, ce qui réduit considérablement la charge de calcul tout en garantissant la précision.

Les résultats de recherche associés, intitulés « VA-MoE : Variables-Adaptive Mixture of Experts for Incremental Weather Forecasting », ont été acceptés par ICCV25, la principale conférence internationale dans le domaine de la vision par ordinateur.

Points saillants de la recherche :

* La première exploration systématique d'un nouveau paradigme pour l'apprentissage progressif dans les prévisions météorologiques, établissant une référence pour l'évaluation quantifiable de l'évolutivité des modèles et des capacités de généralisation

* Proposer VA-MoE, le premier cadre conçu spécifiquement pour la modélisation atmosphérique incrémentale, qui permet une spécialisation experte grâce à l'activation de variables contextuelles pilotée par l'intégration d'indices variables

* Des expériences à grande échelle basées sur l'ensemble de données ERA5 montrent que VA-MoE surpasse considérablement les modèles similaires dans la prévision des variables à haute altitude lorsque la taille des données est divisée par deux et le nombre de paramètres est réduit à 25%.

Adresse du document :
https://arxiv.org/abs/2412.02503
Suivez le compte officiel et répondez « VA-MoE » pour obtenir le PDF complet

Autres articles sur les frontières de l'IA : 

https://hyper.ai/papers

Division des variables aérologiques et terrestres dans l'ensemble de données ERA5

Cette étude utilise comme base expérimentale le jeu de données de réanalyse atmosphérique ERA5, publié par le Centre européen pour les prévisions météorologiques à moyen terme (CEPMMT), couvrant les données d'observation météorologique continue de 1979 à nos jours. Les expériences conventionnelles utilisent une résolution spatiale de 0,25° (correspondant à une grille de 721×1440) ; seule l'expérience d'ablation, afin de maîtriser la complexité de calcul, utilise une version à 1,5° (grille de 128×256) pour garantir un équilibre entre adaptabilité des données et efficacité de calcul dans différents scénarios expérimentaux.

Du point de vue temporel, l’ensemble des données est clairement réparti entre les différentes étapes de l’expérience :

* La phase de formation initiale utilise 40 années de données de 1979 à 2020 pour jeter les bases de la réserve de connaissances météorologiques de base du modèle ;

* La phase de formation incrémentale utilise 20 ans de données de 2000 à 2020 pour s'adapter aux exigences d'optimisation des paramètres après l'introduction de nouvelles variables ;

* Au cours de la phase de test, des données de variables météorologiques pour toute l'année 2021 ont été sélectionnées pour utiliser des données indépendantes afin de vérifier la capacité de généralisation du modèle sur des échantillons inédits, évitant ainsi l'impact des fuites de données sur la crédibilité des résultats.

* En termes de configuration variable, comme le montre la figure ci-dessous, l'expérience implique 5 variables en altitude et 5 variables de surface :

* Variables atmosphériques : Elles comprennent cinq types : Z (altitude géopotentielle), Q (humidité spécifique), U (vitesse du vent est-ouest), V (vitesse du vent nord-sud) et T (température). Chaque type est défini pour 13 couches de pression différentes et est principalement utilisé lors de la phase initiale d’apprentissage du modèle pour développer les capacités de modélisation de la dynamique atmosphérique.

* Variables au sol : y compris la température à 2 mètres T2M, la vitesse du vent d'est à 10 mètres U10, la vitesse du vent du sud à 10 mètres V10, la pression moyenne au niveau de la mer MSL, la pression de surface SP, etc., sont introduites comme variables incrémentielles dans la deuxième étape du modèle (étape de formation incrémentielle) pour simuler le scénario d'expansion dynamique des variables dans les observations réelles.

Résumé des variables atmosphériques

VA-MoE : une architecture de modèle de prévision météorologique adaptative variable pour l'apprentissage progressif

La logique de fonctionnement principale du VA-MoE s’articule autour du « paradigme de formation en deux étapes ».Comme le montre la figure ci-dessous, il simule entièrement le scénario « d'expansion progressive des données » dans des observations réelles : la première étape est l'« étape initiale », dans laquelle seules les variables de haute altitude sont utilisées pour entraîner le modèle, permettant au modèle de saisir d'abord les lois dynamiques fondamentales de la haute atmosphère ; la deuxième étape est l'« étape incrémentale », dans laquelle les variables au sol sont ajoutées tout en gelant les paramètres entraînés de la première étape, et seuls les modules nouvellement ajoutés pour les nouvelles variables sont entraînés, formant finalement un modèle complet.


Illustration de la phase initiale (à gauche) et de la phase incrémentale (à droite)

Du point de vue de l’architecture, comme le montre la figure ci-dessous,Le VA-MoE utilise Transformer comme base principale, mais a réalisé des optimisations clés pour les caractéristiques multi-échelles et fortement corrélées des données météorologiques.Lorsque le modèle traite les données d'entrée, les caractéristiques extraites par le codeur passent d'abord par une couche de normalisation et une couche d'auto-attention. La sortie de cette couche est fusionnée avec une connexion résiduelle. Elle traverse ensuite une autre couche de normalisation avant d'être introduite dans le module central VA-MoE pour un calcul adaptatif variable. Afin d'éviter les lacunes de connaissances causées par la disparition des gradients lors de l'apprentissage profond des réseaux, le cadre intègre également un mécanisme de « connexion résiduelle » : après chaque étape de calcul, certaines caractéristiques d'origine sont conservées, garantissant ainsi que les réseaux de haut niveau puissent continuer à hériter efficacement des informations météorologiques de base extraites par les couches inférieures (comme l'impact du terrain sur la vitesse du vent en surface), améliorant ainsi significativement la stabilité de la modélisation des séries météorologiques à long terme.

Structure détaillée des phases initiale et incrémentale

Au niveau de l'optimisation de la formation, VA-MoE adopte un mécanisme de « perte conjointe multitâche » pour équilibrer la précision de la prédiction et la cohérence physique.Ce mécanisme repose sur deux éléments principaux : une perte de prédiction dynamique, qui optimise les pondérations en fonction des propriétés physiques des variables. Les variables à évolution rapide, comme la température et la vitesse du vent, reçoivent des pondérations plus élevées afin d'améliorer leur capacité à capturer les variations transitoires. Pour les variables à évolution lente, comme la hauteur géopotentielle, un ajustement progressif des pondérations permet de maintenir la stabilité des prévisions à long terme, compensant ainsi la perte de caractéristiques dynamiques clés souvent associées aux modèles traditionnels. De plus, le modèle introduit une perte de reconstruction comme tâche auxiliaire. Grâce à une structure encodeur-décodeur, le modèle doit d'abord restaurer avec précision le champ météorologique d'origine, en apprenant des caractéristiques essentielles telles que la conservation atmosphérique de l'énergie et de la masse, avant d'effectuer la tâche de prévision.

Sur cette base, comme le montre la figure ci-dessous,Le modèle construit un système expert de « spécialisation + collaboration ».Pour les cinq variables clés de la phase d'apprentissage (telles que Z500, la température et la vitesse du vent), des experts adaptatifs canal (CAE) indépendants sont configurés pour chaque variable. Par exemple, le CAE de température se concentre uniquement sur l'évolution spatiotemporelle de la température, combinant son « étiquette d'identité » pour filtrer les caractéristiques clés (telles que la différence de température diurne et les variations brutales de température lors du passage d'un front), améliorant ainsi la précision des prévisions à variable unique grâce à une modélisation spécialisée. De plus, un module « Expert partagé » est configuré pour intégrer les informations locales générées par tous les CAE et capturer les corrélations à l'échelle du système entre plusieurs variables (telles que la réaction en chaîne : augmentation de la température → diminution de la pression atmosphérique → augmentation de la vitesse du vent). Cela permet d'éviter de « méprendre l'arbre pour la forêt » en raison d'une surspécialisation et garantit que le modèle puisse restituer le comportement dynamique global du système atmosphérique.

Diagramme VA-MoE

Vérification des performances du VA-MoE : précision comparable aux modèles traditionnels, avec des avantages d'apprentissage progressifs significatifs

Pour évaluer systématiquement l'efficacité réelle du VA-MoE dans les prévisions météorologiques, l'équipe de recherche a construit un système expérimental complet basé sur des données météorologiques réelles, en se concentrant sur les trois dimensions de « précision, efficacité et évolutivité ».

L'expérience vise à comparer VA-MoE à neuf modèles météorologiques d'IA courants (dont Pangu-Weather, GraphCast, ClimaX, etc.), dont la hauteur géopotentielle Z500 à 500 hPa, la vitesse du vent d'est U10 à 10 mètres, la température T850 à 850 hPa et la température T2M à 2 mètres, en se concentrant sur l'évaluation de leurs performances prévisionnelles à 5 jours. La principale différence réside dans la logique d'apprentissage : les modèles comparés utilisent principalement la méthode traditionnelle d'« apprentissage conjoint ponctuel des variables de haute altitude et de sol ».Le VA-MoE adopte une stratégie progressive en deux étapes : « d'abord la haute altitude, puis le sol », soulignant ses avantages en termes d'expansion variable.

En termes de précision des prévisions,Comme le montre la figure ci-dessous, VA-MoE offre de bonnes performances en prévision de surface et en altitude. Pour les variables de surface clés telles que T2M et U10, la précision des prévisions de VA-MoE est comparable à celle de Stormer et GraphCast, et surpasse nettement celle de modèles comme ClimaX et FourCastNet, maintenant la stabilité des prévisions à court et à long terme. En intégrant des variables comme V10 et la pression atmosphérique (MSL), l'avantage de VA-MoE devient encore plus marqué, se situant légèrement derrière GraphCast uniquement pour T2M et à égalité avec les modèles courants comme FengWu et FuXi.


Analyse comparative du RMSE↓ de 10 modèles sous 4 variables

En termes d’efficacité de la formation,Le VA-MoE, formé en mode incrémental sur la base de 40 ans de données, peut atteindre une précision similaire avec seulement la moitié du nombre standard d'itérations ; même si les données sont réduites à 20 ans et le nombre d'itérations est réduit à un quart, le modèle peut toujours conserver une précision utilisable par l'entreprise, réduisant considérablement le coût de calcul causé par l'expansion des variables.

La prédiction des variables atmosphériques supérieures confirme davantage l’avantage supplémentaire du VA-MoE.L'étude a comparé trois stratégies d'entraînement : le VA-MoE entraîné uniquement sur les variables aérologiques, le VA-MoE intégrant progressivement les variables terrestres (IL) et un modèle d'entraînement conjoint traditionnel. Les résultats ont montré que le VA-MoE entraîné uniquement sur les variables aérologiques atteignait une précision comparable à celle de GraphCast et surpassait IFS et Pangu-Weather. De plus, le VA-MoE incrémental n'a montré aucune dégradation de ses performances prédictives pour les variables aérologiques après intégration des variables terrestres, et a même amélioré sa précision pour les prévisions à long terme de la hauteur géopotentielle à 500 hPa (Z500), démontrant ainsi sa capacité à « apprendre de nouvelles choses sans perdre les anciennes ».

Afin de valider davantage l'efficacité de la structure du modèle, l'équipe a mené des expériences d'ablation comparant le VA-MoE au Transformateur Visuel (ViT) et à son extension expert (ViT+MoE). Bien que ViT+MoE comporte près de deux fois plus de paramètres que le VA-MoE, ce dernier a néanmoins atteint une précision nettement supérieure aux intervalles de prévision de 6 heures, 3 jours et 5 jours. Cela démontre les avantages de son mécanisme d'« expert adaptatif aux canaux », même dans des scénarios à contraintes paramétriques, ce qui le rend particulièrement adapté aux environnements métiers avec des variables en expansion dynamique.

L'IA stimule l'innovation dans les prévisions météorologiques, repoussant les limites des modèles numériques traditionnels

Dans le cadre de l'objectif du VA-MoE de « s'adapter efficacement à de multiples variables, de réduire les coûts de mise à jour et d'améliorer la précision des prévisions », les communautés universitaires et commerciales mondiales travaillent ensemble pour promouvoir en permanence une innovation approfondie dans le paradigme de la modélisation météorologique.

La communauté universitaire a réalisé des avancées importantes dans l’innovation en matière d’architecture de modèles et d’efficacité d’utilisation des données en se concentrant sur les goulots d’étranglement technologiques de base.Aardvark Weather, développé conjointement par l'Université de Cambridge, l'Institut Alan Turing et Microsoft Research, est le premier système d'IA de bout en bout totalement exempt de cadres numériques traditionnels.Il a permis de réaliser une cartographie directe des données d'observation multi-sources vers des prévisions à haute résolution, ce qui a non seulement réduit considérablement la dépendance aux ressources de supercalcul, mais a également raccourci le cycle de développement de modèles spéciaux de plusieurs mois à plusieurs semaines, vérifiant pleinement la faisabilité commerciale du chemin purement axé sur les données.

Titre de l'article :Prévision météorologique de bout en bout basée sur les données
Adresse du document :https://www.nature.com/articles/s41586-025-08897-0

Le système FuXi-Weather a été développé par l'Université Fudan en collaboration avec l'Institut des technologies scientifiques et intelligentes de Shanghai, l'Administration météorologique chinoise et d'autres institutions.Il a été pionnier dans la réalisation d'une modélisation complète de bout en bout, de la température de brillance des satellites aux résultats de prévision, s'affranchissant ainsi de la dépendance au champ initial des modèles numériques traditionnels. Même dans les zones peu observées comme l'Afrique, la précision de ses prévisions dépasse régulièrement celle du système HRES du Centre européen pour les prévisions météorologiques à moyen terme.

Titre de l'article :Un système d'apprentissage automatique de données à prévisions pour la météo mondiale
Adresse du document :https://www.nature.com/articles/s41467-025-62024-1

La communauté des affaires se concentre sur la mise en œuvre de la technologie et l’adaptation des scénarios, démontrant ainsi des capacités d’ingénierie exceptionnelles.GraphCast lancé par Google DeepMind est basé sur l'architecture avancée du réseau neuronal graphique.Après avoir été entraîné avec les données de réanalyse ERA5, il peut établir des prévisions météorologiques mondiales pour les 10 prochains jours en une minute. La précision de ses indicateurs dépasse 90% parmi 1 380 variables de test, ce qui est supérieur à celle du système HRES. Il peut également identifier efficacement les signaux météorologiques extrêmes, tels que les cyclones et les rivières atmosphériques, 3 jours à l'avance. Sa stratégie open source favorise également la popularisation de la technologie.

Titre de l'article :Ensemble de données rétrospectives UT-GraphCast : archives de prévisions mondiales par IA de l'UT Austin pour les applications météorologiques et climatiques
Adresse du document :https://arxiv.org/abs/2506.17453

Le grand modèle Aurora développé par Microsoft adopte une stratégie en deux étapes de « pré-formation-réglage fin ».Grâce à une architecture flexible de 1,3 milliard de paramètres, il atteint une précision globale de 89% pour de multiples tâches telles que la météo, la qualité de l'air et la prévision des vagues. Sa vitesse de calcul est 5 000 fois supérieure à celle des modèles numériques traditionnels et il s'adapte rapidement à divers scénarios métier grâce à de légers ajustements.

Titre de l'article :Un modèle fondateur du système terrestre
Adresse du document :https://www.nature.com/articles/s41586-025-09005-y

À l’avenir, avec l’enrichissement continu des données d’observation multi-sources et l’évolution continue des modèles de base, l’IA météorologique devrait jouer un rôle plus important dans l’alerte aux phénomènes météorologiques extrêmes, l’évaluation du changement climatique et les services professionnels de l’industrie, transformant progressivement son rôle de « prévision auxiliaire » à « prise de décision » et fournissant un soutien technique plus intelligent à la société humaine pour faire face aux défis météorologiques et climatiques.