홍콩대학교와 다른 연구진은 75%로 매개변수를 단순화하면서도 SOTA 성능을 달성한 증분형 기상 예보 모델 VA-MoE를 제안했습니다.

사회 운영 및 재난 예방 결정에 영향을 미치는 핵심 분야인 기상 예보는 복잡하고 끊임없이 변화하는 대기 시스템으로 인해 항상 엄청난 어려움에 직면해 왔습니다. 예보 능력의 향상은 인간의 생산과 삶에 지대한 영향을 미칩니다. 수치 기상 예측(NWP)은 오랫동안 이 분야의 주류 접근 방식이었습니다. 대기 역학 방정식에 기반하여 편미분 방정식을 풀어 기온, 기압, 풍속과 같은 주요 변수의 변화를 시뮬레이션함으로써 기상 시스템의 수치적 추론을 달성합니다.
최근 몇 년 동안 인공지능 기술의 획기적인 발전으로 딥러닝은 강력한 시공간 패턴 인식 능력으로 기상 모델링에 큰 잠재력을 보여주었습니다.이로 인해 "날씨를 위한 인공지능(AI4Weather)"이라는 새로운 학제간 분야가 생겨났습니다.하지만,기존 AI 기상 모델 대부분은 학습 및 예측 과정에서 모든 기상 변수를 동시에 얻을 수 있다는 이상적인 가정에 기반합니다. 이는 데이터 출처가 다양하고 데이터 수집 빈도도 달라지는 실제 관측 상황과 심각하게 상충됩니다.예를 들어, 고지대 기온은 위성이나 라디오존데에 의존하는데, 이러한 관측소는 느리게 업데이트됩니다. 한편, 지표면 강수량과 풍속은 인구 밀도가 높은 관측소에서 실시간으로 모니터링됩니다. 이러한 데이터 비동기성으로 인해 새로운 변수가 추가될 때마다 모델을 완전히 재학습해야 하며, 이는 매우 높은 계산 비용을 초래합니다.
이러한 과제를 해결하기 위해홍콩대학교와 저장대학교 등의 연구팀이 "증분적 기상 예보(IWF)"에 대한 새로운 패러다임을 설계하고 "가변 적응 전문가 혼합(VA-MoE)"을 출시했습니다.이 모델은 단계적 학습 및 변수 인덱스 임베딩 메커니즘을 사용하여 다양한 전문가 모듈이 특정 유형의 기상 변수에 집중하도록 안내합니다. 새로운 변수나 관측소가 추가되면 모델을 완전히 재학습하지 않고도 확장할 수 있어, 정확도를 보장하는 동시에 계산 오버헤드를 크게 줄일 수 있습니다.
"VA-MoE: 증분형 기상 예보를 위한 변수-적응형 전문가 혼합"이라는 제목의 관련 연구 결과가 컴퓨터 비전 분야의 최고 국제 학회인 ICCV25에서 수락되었습니다.
연구 하이라이트:
* 기상 예보에서 점진적 학습을 위한 새로운 패러다임에 대한 최초의 체계적 탐구, 모델 확장성 및 일반화 기능의 정량적 평가를 위한 벤치마크 확립
* 변수 인덱스 임베딩에 의해 구동되는 맥락적 변수 활성화를 통해 전문가 전문성을 달성하는 증분 대기 모델링을 위해 특별히 설계된 최초의 프레임워크인 VA-MoE를 제안합니다.
* ERA5 데이터 세트를 기반으로 한 대규모 실험은 데이터 크기를 절반으로 줄이고 매개변수 수를 25%로 줄였을 때 VA-MoE가 고고도 변수를 예측하는 데 있어 유사한 모델보다 상당히 우수한 성능을 보인다는 것을 보여줍니다.

서류 주소:
https://arxiv.org/abs/2412.02503
공식 계정을 팔로우하고 "VA-MoE"라고 답글을 남겨 전체 PDF를 받아보세요.
더 많은 AI 프런티어 논문:
ERA5 데이터 세트의 상층 공기 및 지상 변수 구분
본 연구는 유럽 중기예보센터(ECMWF)에서 발표한 주류 대기 재분석 데이터셋 ERA5를 실험 기반으로 사용하며, 1979년부터 현재까지의 연속적인 기상 관측 데이터를 포함합니다. 기존 실험에서는 0.25° 공간 분해능(격자 크기 721×1440)을 사용하지만, 삭마 실험에서만 계산 복잡도를 제어하기 위해 1.5° 분해능 버전(격자 크기 128×256)을 사용하여 다양한 실험 시나리오에서 데이터 적응성과 계산 효율성 간의 균형을 유지했습니다.
시간 차원에서 데이터 세트는 실험의 각 단계에 명확하게 할당됩니다.
* 초기 훈련 단계에서는 1979년부터 2020년까지 40년간의 데이터를 사용하여 모델의 기본 기상 지식 저장소의 기반을 마련합니다.
* 증분적 학습 단계에서는 새로운 변수 도입 후 매개변수 최적화 요구 사항에 적응하기 위해 2000년부터 2020년까지 20년간의 데이터를 사용합니다.
* 테스트 단계에서는 2021년 전체의 기상 변수 데이터를 선택하여 독립적인 데이터를 사용하여 보이지 않는 샘플에 대한 모델의 일반화 능력을 검증함으로써 데이터 유출로 인한 결과의 신뢰성에 미치는 영향을 피했습니다.
* 변수 구성 측면에서는 아래 그림과 같이 상층 공기 변수 5개와 표면 변수 5개가 실험에 포함됩니다.
* 상층 대기 변수: Z(지오포텐셜 고도), Q(비습도), U(동서풍속), V(남북풍속), T(기온)의 다섯 가지 유형이 있습니다. 각 유형은 13개의 서로 다른 기압층에서 정의되며, 주로 초기 모델 학습 단계에서 핵심 대기 역학 모델링 역량을 구축하는 데 사용됩니다.
* 지상 변수: 2m 온도 T2M, 10m 동풍속 U10, 10m 남풍속 V10, 평균 해면 기압 MSL, 지표 기압 SP 등을 모델의 2단계(증분형 학습 단계)에 증분형 변수로 도입하여 실제 관측에서 변수가 동적으로 확장되는 시나리오를 시뮬레이션합니다.

VA-MoE: 증분 학습을 위한 가변 적응형 기상 예보 모델 아키텍처
VA-MoE의 핵심 운영 논리는 "2단계 교육 패러다임"을 중심으로 합니다.아래 그림에서 보듯이, 실제 관측에서 "데이터의 점진적인 확장" 시나리오를 완벽하게 시뮬레이션합니다. 첫 번째 단계는 "초기 단계"로, 고고도 변수만 사용하여 모델을 훈련시켜 모델이 먼저 상층 대기의 핵심 동적 법칙을 파악할 수 있도록 합니다. 두 번째 단계는 "증분 단계"로, 첫 번째 단계에서 훈련된 매개변수를 동결한 상태에서 지상 기반 변수를 추가하고, 새로운 변수에 대해 새로 추가된 모듈만 훈련시켜 최종적으로 완전한 모델을 형성합니다.

아래 그림과 같이 아키텍처 관점에서 보면,VA-MoE는 핵심 백본으로 Transformer를 사용하지만, 기상 데이터의 다중 규모 및 강력하게 상관된 특성에 대한 핵심 최적화를 이루었습니다.모델이 입력 데이터를 처리할 때, 인코더에서 추출된 입력 특징은 먼저 정규화 계층과 자기 주의 계층을 통과합니다. 자기 주의 계층의 출력은 잔차 연결과 융합됩니다. 그런 다음, 변수 적응 계산을 위해 VA-MoE 핵심 모듈에 입력되기 전에 또 다른 정규화 계층을 거칩니다. 심층 네트워크 학습 중 "기울기 소멸"로 인한 지식 격차를 방지하기 위해, 이 프레임워크는 "잔차 연결" 메커니즘도 통합합니다. 각 계산 단계 후에 일부 원래 특징이 유지되어 상위 네트워크가 하위 계층에서 추출한 기본적인 기상 정보(예: 지형이 지표면 근처 풍속에 미치는 영향)를 효과적으로 계승할 수 있도록 하여 장기 기상 시리즈의 모델링 안정성을 크게 향상시킵니다.

훈련 최적화 수준에서 VA-MoE는 예측 정확도와 물리적 일관성의 균형을 맞추기 위해 "멀티태스크 조인트 손실" 메커니즘을 채택합니다.이 메커니즘은 두 가지 핵심 구성 요소로 구성됩니다. 하나는 변수의 물리적 특성에 따라 가중치를 최적화하는 동적 예측 손실입니다. 기온이나 풍속과 같이 빠르게 변하는 변수에는 더 높은 가중치가 부여되어 과도기적 변화를 포착하는 능력을 향상시킵니다. 지구 위상고도와 같이 느리게 변하는 변수의 경우, 장기적인 예측 안정성을 유지하기 위해 점진적인 가중치 조정을 통해 기존 모델에서 흔히 발생하는 주요 동적 특성의 손실을 극복합니다. 또한, 이 모델은 보조 작업으로 재구성 손실을 도입합니다. 모델은 인코더-디코더 구조를 통해 예측 작업을 수행하기 전에 먼저 원래 기상장을 정확하게 복원하고, 그 과정에서 대기 에너지 및 질량 보존과 같은 필수적인 특성을 학습해야 합니다.
이를 바탕으로 아래 그림과 같이,이 모델은 "전문화 + 협업"의 전문가 시스템을 구축합니다.훈련 단계의 5가지 핵심 변수(예: Z500, 기온, 풍속)에 대해 각 변수마다 독립적인 "채널 적응 전문가(CAE)"가 구성됩니다. 예를 들어, 기온 CAE는 기온의 시공간적 변화에만 초점을 맞추고, 기온의 "식별 태그"를 결합하여 주요 특징(예: 일교차 및 전선 통과 시 급격한 기온 변화)을 분석하여 특수 모델링을 통해 단일 변수 예측의 정확도를 향상시킵니다. 또한, "공유 전문가" 모듈은 모든 CAE에서 출력되는 지역 정보를 통합하고 여러 변수 간의 시스템 수준 상관관계(예: 기온 상승 → 기압 감소 → 풍속 증가의 연쇄 반응)를 포착하도록 설정됩니다. 이를 통해 과도한 전문화로 인한 "숲만 보고 나무만 보는" 현상을 방지하고, 모델이 대기 시스템의 전반적인 동적 거동을 복원할 수 있도록 보장합니다.

VA-MoE 성능 검증: 주류 모델과 비슷한 정확도, 상당한 증분적 학습 이점 제공
연구팀은 VA-MoE가 기상 예보에 미치는 실제 효과를 체계적으로 평가하기 위해 실제 기상 데이터를 기반으로 "정확도, 효율성, 확장성"의 세 가지 측면에 초점을 맞춘 완전한 실험 시스템을 구축했습니다.
실험의 핵심은 VA-MoE를 Pangu-Weather, GraphCast, ClimaX 등 9개의 현재 주류 기상 AI 모델과 비교하는 것입니다. 여기에는 500hPa 지오포텐셜 고도 Z500, 10m 동풍속 U10, 850hPa 기온 T850, 2m 기온 T2M 등이 포함되며, 5일 이내의 예보 성능을 평가하는 데 중점을 둡니다. 주요 차이점은 학습 로직에 있습니다. 비교 모델은 대부분 "고고도 및 지상 변수의 일회성 공동 학습"이라는 전통적인 방식을 사용합니다.VA-MoE는 "먼저 고고도, 그 다음 지상"의 2단계 증분 전략을 채택하여 가변적 확장에 있어서의 장점을 강조합니다.
예측 정확도 측면에서아래 그림에서 볼 수 있듯이 VA-MoE는 지상 및 상층 대기 예보 모두에서 우수한 성능을 보입니다. T2M 및 U10과 같은 주요 지상 변수의 경우, VA-MoE의 예보 정확도는 Stormer 및 GraphCast와 유사하며, ClimaX 및 FourCastNet과 같은 모델보다 훨씬 뛰어나 단기 및 장기 예보 모두에서 안정성을 유지합니다. V10 및 해면 기압(MSL)과 같은 변수로 확장하면 VA-MoE의 이점은 더욱 두드러지며, T2M에서만 GraphCast보다 약간 낮고 FengWu 및 FuXi와 같은 주류 모델과 동등한 수준을 보입니다.

훈련 효율성 측면에서,40년간의 데이터를 기반으로 증분 모드로 학습된 VA-MoE는 표준 반복 횟수의 절반만으로 비슷한 정확도를 달성할 수 있습니다. 데이터가 20년으로 줄어들고 반복 횟수가 4분의 1로 줄어들더라도 모델은 여전히 비즈니스에 사용 가능한 정확도를 유지할 수 있으며, 변수 확장으로 인해 발생하는 계산 비용을 크게 줄일 수 있습니다.
상층 대기 변수 예측은 VA-MoE의 점진적 이점을 더욱 검증합니다.이 연구는 세 가지 훈련 전략을 비교했습니다. 상층 대기 변수만을 사용하여 훈련한 VA-MoE, 지상 변수(IL)를 점진적으로 통합한 VA-MoE, 그리고 기존의 공동 훈련 모델입니다. 결과는 상층 대기 변수만을 사용하여 훈련한 VA-MoE가 GraphCast와 유사한 정확도를 달성했으며, IFS와 Pangu-Weather보다 우수한 성능을 보였다는 것을 보여주었습니다. 더욱이, 점진적 VA-MoE는 지상 변수를 통합한 후에도 상층 대기 변수에 대한 예측 성능이 저하되지 않았으며, 500hPa 지구고도(Z500)의 장기 예보에서도 정확도를 향상시켜 "기존의 것을 잃지 않고 새로운 것을 학습"할 수 있는 능력을 보여주었습니다.
모델 구조의 효과를 더욱 검증하기 위해 연구팀은 VA-MoE와 Visual Transformer(ViT) 및 전문가 기반 확장 모델(ViT+MoE)을 비교하는 절제 실험을 수행했습니다. ViT+MoE는 VA-MoE보다 매개변수 수가 거의 두 배에 달하지만, VA-MoE는 6시간, 3일, 5일 예보 간격에서 여전히 훨씬 더 높은 정확도를 달성했습니다. 이는 매개변수가 제한된 시나리오에서도 "채널 적응형 전문가" 메커니즘의 장점을 보여주며, 특히 동적으로 확장되는 변수가 있는 비즈니스 환경에 매우 적합합니다.
AI는 날씨 예측의 혁신을 주도하며 기존 수치 모델의 경계를 넓히고 있습니다.
VA-MoE가 "다양한 변수에 효율적으로 적응하고, 업데이트 비용을 줄이고, 예보 정확도를 높이는" 데 중점을 두고 있는 가운데, 전 세계 학계와 기업 커뮤니티는 기상 모델링 패러다임에서 심층적인 혁신을 지속적으로 촉진하기 위해 협력하고 있습니다.
학계에서는 핵심 기술 병목 현상에 초점을 맞춰 모델 아키텍처 혁신과 데이터 활용 효율성 측면에서 중요한 획기적인 진전을 이루었습니다.케임브리지 대학교, 앨런 튜링 연구소, 마이크로소프트 연구소가 공동으로 개발한 Aardvark Weather는 기존의 수치적 프레임워크로부터 완전히 자유로운 최초의 종단 간 AI 시스템입니다.다중 소스 관측 데이터에서 고해상도 예측으로 직접 매핑하는 것을 달성하여 슈퍼컴퓨팅 리소스에 대한 의존도를 크게 낮추었을 뿐만 아니라 특수 모델의 개발 주기를 몇 개월에서 몇 주로 단축하여 순수 데이터 기반 경로의 사업적 타당성을 완벽하게 검증했습니다.
논문 제목:종단 간 데이터 기반 날씨 예측
서류 주소:https://www.nature.com/articles/s41586-025-08897-0
FuXi-Weather 시스템은 복단대학교가 상하이 과학기술정보연구소, 중국 기상청 및 기타 기관과 협력하여 개발했습니다.위성 밝기 온도부터 예보 결과까지 완전한 엔드투엔드 모델링을 구현하는 데 앞장서면서 기존 수치 모델의 초기 단계에 의존하던 방식에서 벗어났습니다. 아프리카와 같이 관측이 드문 지역에서도 예측 정확도는 유럽 중기 기상 예보 센터(ECWF)의 HRES 시스템을 꾸준히 능가하고 있습니다.
논문 제목:글로벌 날씨를 위한 데이터-예측 머신 러닝 시스템
서류 주소:https://www.nature.com/articles/s41467-025-62024-1
기업 커뮤니티는 기술 구현과 시나리오 적응에 중점을 두고 뛰어난 엔지니어링 역량을 보여줍니다.Google DeepMind가 출시한 GraphCast는 고급 그래프 신경망 아키텍처를 기반으로 합니다.ERA5 재분석 데이터로 학습한 후, 향후 10일간의 전 세계 기상 예보를 1분 이내에 완료할 수 있습니다. 지표 정확도는 1,380개의 테스트 변수 중 90%를 초과하여 HRES 시스템보다 우수합니다. 또한 사이클론이나 대기 하천과 같은 극한 기상 신호를 3일 전에 효과적으로 식별할 수 있습니다. 오픈 소스 전략은 기술 대중화를 더욱 촉진합니다.
논문 제목:UT-GraphCast Hindcast 데이터 세트: 날씨 및 기후 응용 프로그램을 위한 UT Austin의 글로벌 AI 예측 아카이브
서류 주소:https://arxiv.org/abs/2506.17453
Microsoft에서 개발한 Aurora 대형 모델은 "사전 학습-미세 조정"의 2단계 전략을 채택했습니다.13억 개의 매개변수를 포함하는 유연한 아키텍처를 통해 날씨, 대기 질, 파도 예측 등 다양한 작업에서 89%의 종합적인 정확도를 달성합니다. 컴퓨팅 속도는 기존 수치 모델보다 5,000배 빠르며, 간단한 미세 조정을 통해 다양한 비즈니스 시나리오에 신속하게 적응할 수 있습니다.
논문 제목:지구 시스템의 기초 모델
서류 주소:https://www.nature.com/articles/s41586-025-09005-y
앞으로 다양한 소스의 관측 데이터가 지속적으로 풍부해지고 기본 모델이 지속적으로 발전함에 따라 기상 AI는 극한 기상 경보, 기후 변화 평가, 전문 산업 서비스 분야에서 더 큰 역할을 할 것으로 예상되며, 점차 그 역할이 '보조 예보'에서 '의사 결정 주도'로 전환되고 인간 사회가 기상 및 기후 문제에 대처할 수 있도록 보다 지능적인 기술 지원을 제공할 것입니다.