Nature, Cambridge University 등은 예측 속도를 수십 배나 높이는 최초의 엔드투엔드 데이터 기반 기상 예보 시스템을 출시했습니다.

매일 새벽, 전 세계 수백 대의 슈퍼컴퓨터가 대기를 수백만 개의 가상 큐브로 나누고 열역학, 유체 역학, 복사 전달을 포함하는 편미분 방정식을 풀어 향후 10일간 지구 대기의 이동 궤적을 추론합니다. 수치 기상 예보라고 불리는 이 기술은 20세기 중반에 영국의 기상학자 리처드슨이 "기상 예보 공장"이라는 아이디어를 제안한 이래로 현대 기상 예보의 초석으로 발전했습니다. 태풍 경로 예측에서 비행 경로 계획, 농업 파종 결정에서 신에너지 발전 일정에 이르기까지 수치 예보 시스템을 통해 6시간마다 업데이트되는 전 세계 대기의 3차원 스냅샷은 경도와 위도 0.01°(약 1km)의 공간 분해능으로 인간이 날씨와 소통하는 방식을 바꾸고 있습니다.
그러나 사회적 요구가 증가함에 따라 물리적 방정식을 기반으로 하는 기존 수치 예측 모델은 계산 복잡성이 기하급수적으로 증가하고 예측 정확도가 향상되어 얻는 한계적 이점이 감소하는 이중 딜레마에 직면하게 되었습니다.이런 맥락에서 인공지능 기술의 개입은 대기과학에 새로운 감각기관을 설치하는 것과 같습니다. 심층 신경망이 위성 구름 이미지의 미묘한 질감을 분석하기 시작하고, 강화 학습 알고리즘이 매개변수화 방식을 자율적으로 최적화하고, 생성적 적대 신경망이 가상 장면에서 극한 날씨를 연습할 때, 날씨 예측의 기술 혁명이 점차 구체화되고 있습니다.
최근 케임브리지 대학은 튜링 연구소, 토론토 대학, 마이크로소프트 과학 정보 센터, 유럽 중기 기상 예보 센터, 영국 남극 조사국, 구글 딥마인드와 협력하여 Aardvark Weather라는 종단 간 데이터 기반 기상 예보 시스템을 공동으로 출시했습니다. 관측 데이터를 통합함으로써 시스템은 글로벌 그리드 예측과 로컬 사이트 예측을 동시에 생성할 수 있습니다.여러 핵심 변수와 다양한 리드 타임을 테스트한 결과, 글로벌 예측 성능이 기존의 운영 수치 기상 예측(NWP) 벤치마크를 능가했습니다.지역 현장 예보의 경우, 이 시스템은 최대 10일의 리드타임으로 높은 예보 기술을 보여주며, 그 성능은 인간 예보자의 입력을 통합한 고급 엔드투엔드 예보 시스템과 사후 처리를 통해 최적화된 글로벌 NWP 벤치마크와 비슷합니다. 엔드투엔드 튜닝을 더욱 심화시키면 지역 예보의 정확도가 크게 향상됩니다.
관련 연구 결과는 "종단 간 데이터 기반 날씨 예측"이라는 제목으로 Nature에 편집되지 않은 버전으로 게재되었습니다.

서류 주소:
https://www.nature.com/articles/s41586-025-08897-0
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 놓았으며, 방대한 데이터 세트와 도구도 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 크로스 플랫폼, 다중 소스 통합, 혁신적인 데이터 융합 전략 구축
Aardvark Weather 시스템이 실제 작동하는 기존 수치 기상 예측(NWP) 모델과 완전히 독립적이도록 하기 위해 연구진은 여러 플랫폼과 다중 소스 융합 관측 데이터 세트를 신중하게 구축했습니다.이 시스템은 1B 또는 1C 수준의 처리가 가능한 위성 데이터만을 사용합니다.레벨 1B 데이터는 보정 및 지리적 위치가 지정된 데이터를 말하며, 레벨 1C 데이터는 추가적인 방사선 보정 및 기하학적 처리를 거쳐 관측 정확도가 비즈니스 배포 요구 사항을 충족하는지 확인합니다. 모든 데이터는 2007년부터 2020년까지의 기간을 포괄하며 실시간 수집을 지원하여 시스템에 안정적인 데이터 흐름을 제공합니다.
토지 관측 데이터는 영국 기상청의 HadISD 데이터 세트에서 나왔습니다.8,719개 관측소의 표면 온도, 8,016개 관측소의 기압, 8,721개 관측소의 풍속, 8,617개 관측소의 이슬점 온도가 포함되어 있으며, 6시간마다 업데이트됩니다. 해양 관측은 미국 NOAA의 ICOADS 데이터 세트를 활용하는데, 이 데이터 세트는 전 세계의 선박과 부표에서 실시간 관측 데이터를 통합합니다. 상층 대기 관측 데이터는 NCEI의 IGRA 아카이브에서 나온 것으로, 1,375개 관측소의 온도, 습도, 바람 프로파일을 담고 있습니다. 연구팀은 200, 500, 700, 850hPa 등 지표면과 주요 기압대의 관측 기록을 특별히 선정했습니다.
또한 현장 관찰의 지리적 제약으로 인해 연구자들은 다중 소스 원격 감지 데이터를 도입하게 되었습니다. 본 연구에서는 유럽의 EUMETSAT이 제공한 MetOp 시리즈 위성의 ASCAT 산란계 데이터를 활용하였고, NCEI가 제공한 ATOVS 시스템(AMSUA, AMSUB, MHS 및 HIRS/4 장비 포함)과 공동으로 마이크로파-적외선 협력 관측 네트워크를 구축했습니다. 연구팀은 NCEI의 IASI 초분광 적외선 감지 데이터를 활용해 온도와 습도의 수직 분포에 대한 자세한 정보를 보완했습니다. 정지궤도 위성 관측을 위해 연구팀은 NCDC의 GridSat 그리드 제품을 선택했습니다. 이 제품은 적외선 및 수증기 채널 데이터를 표준화하여 궤도 위성의 시간적, 공간적 이질성을 제거합니다.
Aardvark 시스템은 NWP 모델과 완전히 독립적으로 작동하지만, 모듈형 아키텍처는 학습 단계에서 ERA5 재분석 데이터 세트를 현명하게 활용한다는 점이 주목할 만합니다. 유럽 중기 기상 예보 센터(ECMWF)의 5세대 재분석 데이터 세트인 ERA5는 1940년부터 현재까지의 온도, 습도, 바람장 등의 매개변수에 대한 완전한 시공간적 시리즈를 제공하는 최첨단 전 세계 대기 재분석 데이터 세트입니다. Aardvark Weather는 이러한 혁신적인 데이터 융합 전략을 통해 기존 수치 모델의 한계를 극복할 뿐만 아니라 데이터 기반 모델의 실시간성과 고정밀성의 장점을 극대화하여 글로벌 날씨 예보 기술의 새로운 패러다임을 열었습니다.
Aardvark Weather: 컴퓨팅 파워가 덜 필요하고 예보 속도가 수십 배 빨라집니다.
Aardvark Weather는 혁신적인 딥러닝 기반의 종단간 날씨 예보 시스템입니다.핵심 아키텍처는 인코더 모듈, 처리 모듈, 디코더 모듈의 세 가지 모듈로 구성됩니다.이 시스템은 배포 단계에서 기존의 수치적 날씨 예보 제품에 대한 의존성을 없애고, 학습 단계에서 모델 성능을 개선하기 위해 고품질의 과거 재분석 데이터를 최대한 활용하도록 설계되었습니다.
인코더는 그리드 기반 및 비그리드 기반 다중 소스 관측 데이터를 통합하여 초기 대기 상태를 생성하는 역할을 합니다. 이 프로세스는 비재귀적 방법을 사용하는데, 이는 기존 수치 기상 예측에서 칼만 필터의 재귀적 업데이트에서 발생할 수 있는 기울기 불안정성과 같은 문제를 효과적으로 방지합니다. 처리 모듈은 초기 상태를 기반으로 24시간 예측을 생성하고 자기 회귀 메커니즘의 도움으로 더 긴 리드 타임으로 확장합니다. 디코더는 그리드형 예보를 지역 사이트 예보로 변환하고, 멀티태스킹 확장을 지원하며, 시스템의 적용 범위를 더욱 확장합니다.

모델 아키텍처 측면에서, 인코더와 처리 모듈은 ViT(Visual Transformer)를 백본으로 사용하고, 디코더는 가벼운 합성 신경망을 사용합니다. 이러한 조합은 처리 효율성과 모델 유연성을 모두 보장합니다. 훈련 전략 측면에서 Aardvark는 먼저 사전 훈련을 위해 고충실도 과거 재분석 데이터(예: ERA5)를 사용하여 관찰 편향을 수정하는 방법을 학습한 다음, 단계별 미세 조정을 통해 각 모듈을 최적화하여 훈련과 배포 간의 일관성을 보장합니다. 마지막으로, 특정 지역과 변수에 대한 예측 정확도는 공동 미세 조정을 통해 더욱 향상될 수 있습니다. 이러한 모듈식 설계와 훈련 방법을 통해 Aardvark는 배포 시 기존 수치 모델에 전혀 의존하지 않고도 데이터 기반 모델의 실시간성과 고정밀성의 장점을 최대한 활용할 수 있습니다.
연구팀은 Aardvark Weather의 글로벌 그리드 예측 성능을 평가하기 위해 이를 4개의 기준 모델과 비교했습니다. 가장 간단한 기준선은 지속성과 시간당 기후로, 이는 예보 시스템에 기본 기능이 있는지 평가하는 데 사용됩니다. 더욱 어려운 비교는 가장 널리 사용되는 두 가지 운영상 결정론적 글로벌 NWP 시스템, 즉 고해상도 HRES를 갖춘 유럽 중기 기상 예보 센터(ECMWF) 통합 예보 시스템(IFS)과 미국 국립 환경 예측 센터의 글로벌 예보 시스템(GFS)을 비교하는 것입니다. 결과에 따르면 Aardvark는 대부분의 리드타임에서 GFS와 비슷하거나 더 나은 것으로 나타났습니다. 게다가 대부분의 변수에 있어서 Aardvark의 성능은 HRES와 비슷합니다. Aardvark는 상층 대기에서 오차가 더 크고 리드 타임이 짧은데, 이는 지면 가까이에서 더 집중적으로 관측하기 때문일 수 있습니다. 반면 리드 타임이 긴 경우 Aardvark 예보는 스펙트럼이 흐릿해지는 경향이 있는데, 이는 데이터 기반 날씨 예보 시스템에서 흔히 나타나는 현상입니다.
연구 결과에 따르면 Aardvark Weather는 최초의 완전한 종단 간 데이터 기반 기상 예보 시스템으로, 원시 관측 데이터에서 예보 출력으로 직접 매핑하는 방법을 학습합니다. 배포 시 NWP 제품과 완전히 독립적이며, 예측을 생성하기 위해 관측 데이터만 사용합니다. 생성 속도는 기존 시스템보다 몇 배나 빠릅니다. Aardvark Weather 시스템은 4개의 NVIDIA A100 GPU를 사용하여 관측 데이터로부터 완전한 예보를 생성하는 데 약 1초밖에 걸리지 않습니다. 비교해 보면, 기존의 유럽 중기 기상 예보 센터(ECMWF) 고해상도(HRES) 시스템은 데이터 동화 및 예측을 수행하는 데만 약 1,000노드 시간이 필요합니다. 사용되는 관찰 데이터 양이 비즈니스 기준선보다 훨씬 적고 컴퓨팅 리소스 요구 사항도 기존 방식보다 몇 배나 적음에도 불구하고,Aardvark는 여전히 1.5도 글로벌 그리드에 대한 예측을 제공하고 여러 변수와 리드 타임에 걸쳐 평균 제곱근 오차(RMSE) 측면에서 운영 NWP 시스템보다 우수한 성능을 보입니다.

AI는 수치 기상 예보 분야에서 널리 활용되고 있습니다.
현재 세계 기상과학은 인공지능 기술을 중심으로 패러다임 전환을 겪고 있으며, 우리나라의 과학연구 역량은 이 기술 혁명 속에서 강력한 돌파구를 마련하고 있습니다. 딥러닝 알고리즘의 반복적 혁신에 의지하여,국내 연구기관에서는 기상예보의 전 과정을 포괄하는 지능형 모델 시스템을 구축했습니다.이를 통해 예보 정확도와 효율성이 크게 향상되었을 뿐만 아니라, 기상학과 AI의 긴밀한 통합도 촉진되었습니다.
예를 들어, 지구 좌표계에 맞춰 개발된 세계 최초의 3차원 신경망 모델인 화웨이의 판구 기상 모델은 물리 방정식에 의존하는 기존 수치 예측의 한계를 돌파했습니다. 혁신적인 계층적 시간 영역 집계 전략은 반복적 오류의 누적을 효과적으로 억제하여 전 세계 중기 날씨 예보 해상도를 업계 최고 수준인 0.25°에 도달하게 했습니다. 복단대학교의 푸시 기상 모델은 다른 접근 방식을 취해 다중 작업 학습 프레임워크를 통해 기상 요소에 대한 협업적 예측을 달성합니다. 이 제품의 위도 가중 손실 함수 설계는 고위도 지역에서 예측 정확도가 낮아지는 산업의 문제점을 현저히 해결하며, 특히 소규모에서 중규모 강수량 예측 정확도를 크게 개선하는 데 효과적입니다.
특수 예보 분야에서 상하이 인공지능연구소의 "풍무(風武)" 시스템은 다중 모드 융합 기술을 사용하여 태풍 경로의 120시간 예보 오차를 121.4km의 획기적인 정확도로 압축했습니다. 이는 유럽 중기 기상 예보 센터(ECMWF)의 오차 293.8km에 비해 획기적으로 향상된 수치입니다. 라오산 연구실의 "바다에 물어보세요" 해양 예측 모델은 해양 역학의 원리를 신경망 구조에 혁신적으로 내장하여 1/12°의 해상도를 갖춘 세계 최초의 지능형 해양 환경 예측 시스템을 구축했습니다.
그뿐만 아니라, 중국 기상청이 주도하는 "AI 기상 예보 모델 시범 계획"은 기술적 성과의 전환을 가속화하고 있습니다. 풍청, 풍뢰, 풍순 체계가 공개되었습니다.이는 AI 기술이 연구 단계에서 응용 단계로 전환되는 것을 의미합니다. 그 중에서도 "Wind and Thunder" 시스템은 물리적 유도와 데이터 중심의 하이브리드 아키텍처를 개척했습니다. 이러한 "수학적 융합" 기술 경로는 극한 기상 현상의 해석 측면에서 순수 AI 모델의 단점을 효과적으로 보완합니다."풍청" 대형 모델은 3분이라는 놀라운 속도로 15일간의 전 세계 예보를 생성하여 핵심 요소의 효과적인 예보 시간을 10.5일로 연장합니다.현재 개발 중인 "풍순" 계절 이하 예보 시스템은 AI 기술이 보다 어려운 기후 예측 분야로 확장되는 시작을 알립니다.
국내 AI 기상대형 모델 연구는 기술적 검증에서 사업적 활용으로 옮겨갔지만, 높은 효율성과 낮은 비용의 장점은 글로벌 기상 예측에 새로운 패러다임을 제시하고 있습니다. 그러나 물리적 메커니즘의 해석 가능성, 데이터의 실시간성, 극한 현상의 모델링은 여전히 극복해야 할 어려운 문제입니다. 물리-데이터 융합 프레임워크의 지속적인 심화와 학제간 협력의 강화에 따라,AI 기술은 단기 예보에서 계절별 기후 예보에 이르기까지, 더 높은 정확도와 폭넓은 적용 범위를 갖춘 새로운 시대의 기상 예보를 가져올 것으로 기대됩니다.