정확도가 400% 향상되었습니다! 36개 기상 관측소를 기반으로 한 인도 몬순 예측 모델을 통해 도시 단위의 상세 예보가 가능합니다.

인도 뭄바이는 매년 6월부터 9월까지 몬순 시즌을 맞이합니다. 최근 몇 년 동안 극심한 강우가 빈번하게 발생하여 평균 강우량이 2019년 이전 수준에 비해 약 401TP3톤 증가했습니다. 1,800만 명이 거주하는 이 해안 도시는 폭우로 인해 종종 혼란에 빠집니다. 기상 경보가 늦어지면 직장과 학교가 휴교되고 심지어 심각한 홍수까지 발생하기 때문입니다. 이처럼 파괴적인 몬순 재해는 더욱 정확한 지역별 기상 예보의 필요성을 절실히 요구합니다.
그러나 열대 몬순 기후에서는 약 25제곱킬로미터에 불과한 표준 지구 기상 모델의 해상도로는 지역 기상 체계의 미묘한 차이를 포착하기 어렵습니다. 또한 지형의 복잡성은 홍수의 공간적 불확실성을 심화시킵니다. 따라서 이전에는 몬순 예보가 거시적 추세에만 국한되어 왔습니다.
도시 홍수 위험 예측의 빈틈을 메우기 위해 인도 공과대학교 봄베이 캠퍼스와 메릴랜드 대학교 연구팀은 합성곱 신경망(CNN)과 전이 학습(CNN-TL)을 기반으로 한 하이퍼로컬 예측 모델을 개발하기 위해 협업했습니다. 이를 통해 대부분의 폭우 사태를 며칠 전에 예측할 수 있었습니다.Science의 최신 보고서에 따르면, 뭄바이는 이제 이를 공식 조기 경보 시스템에 통합하는 것을 고려하고 있으며, 이는 남아시아 도시에서 초지역적 홍수 예보의 새로운 단계를 의미합니다.
관련 연구 결과는 "뭄바이의 초지역적 극한 강우 예보: 합성곱 신경망 전이 학습 기반 다운스케일링 접근법"이라는 제목으로 SSRN에 사전 게재되었습니다.
연구 하이라이트:
* 도시 규모에서 초지역적 예보를 달성하고, 도시 지역 수준의 해상도를 낮추고, 기존 수치 모델(25km 격자)의 홍수 위험 예측의 단점을 해결합니다.
* 합성곱 신경망과 전이 학습을 결합하여, 전체 강우량 데이터를 기반으로 모델을 학습하고 극한 강우량 샘플을 사용하여 세부 조정하여, 모델의 극한 현상을 포착하는 능력을 효과적으로 향상시킵니다.
* 뭄바이의 극심한 강우의 공간적 동기화 패턴은 이벤트 동기화 방법과 루뱅 알고리즘을 통해 밝혀졌으며, 이는 기존 클러스터링 방법보다 효율적입니다.

서류 주소:
https://go.hyper.ai/j05Vt
공식 계정을 팔로우하고 "인도 몬순 예보"에 답글을 남겨 전체 PDF를 받으세요.
더 많은 AI 프런티어 논문:
"모델 데이터 + 예보 데이터", 데이터 갭 기반 36개 관측소 스크리닝
본 연구에서 사용된 데이터 세트는 모델 데이터와 측정 데이터의 두 가지 범주로 구분됩니다.
- 모드 데이터:미국 국립환경예측센터(NCEP)의 글로벌 예보 시스템(GFS)은 2015년 6월부터 2023년 9월까지의 기간을 다루며, 공간 범위는 북위 18°~20°, 동경 72°~74°이고 해상도는 0.25°×0.25°입니다.
- 예측 데이터:이 데이터는 뭄바이시청(MCGM)에서 운영하는 자동 기상 관측소(AWS)에서 수집되었으며, 15분 간격으로 기록되며 2006년부터 2023년까지(2014년 제외)의 데이터를 포함합니다. 일부 관측소의 측정 누락 및 불연속적인 데이터로 인해, 2015년부터 2023년 몬순 기간(6월부터 9월까지) 동안 비교적 완전한 데이터를 보유한 36개 관측소만 분석 대상으로 선정되었습니다.
연구팀은 입력 데이터의 품질을 보장하고 모델의 예측 성능을 개선하기 위해 누락된 데이터를 제거하고, 변수를 선별하고, 공간 매칭을 수행하여 데이터를 처리했습니다.자동 기상 관측소의 원시 관측 자료에 대해, 연구팀은 상당한 데이터 공백이 있는 지점을 제거하고 몬순 기간(6월~9월) 동안 최소 5년 연속 완전한 기록을 보유한 지점만 포함했습니다. 또한, 연구진은 모델 데이터 내에서 상관관계 스크리닝을 사용하여 강수량과 강한 상관관계를 갖는 기상 요인(예: 강수량, 강수량, 상대 습도, 기온, 기압)을 예측 변수로 선정했습니다.
연구팀은 전처리 과정을 거쳐 GFS 그리드 데이터를 현장 관찰 데이터와 정렬하여 합성 신경망과 전이 학습 모델을 위한 훈련 샘플로 사용할 "입력-출력" 쌍을 구성했습니다.
합성곱 신경망과 전이 학습을 기반으로 한 강수량 예측
이 모델은 GFS 데이터를 입력으로 사용하고 이를 측정된 강우량과 결합합니다. 먼저 합성곱 신경망을 사용하여 저해상도 예보를 현장 규모로 축소한 다음, 전이 학습을 통해 극한 강우 예측을 최적화합니다. 마지막으로, 현장 비교를 결합하여 지역적인 강우 동조성을 파악하고 전반적인 예보 정확도를 향상시킵니다.

이벤트 동기화 방식을 기반으로 한 루뱅 클러스터링
이 연구에서는 여러 관측소의 강우 시간 시리즈를 비교하여 지역적 폭우를 식별하는 이벤트 동기화 방법을 소개하고, 도시에서 발생하는 극심한 강우의 공간적 동기화 패턴을 밝혀냈습니다.이 방법은 기존의 선형 상관 분석과 비교했을 때, 갑작스러움이 강하고 비선형적 특성이 뚜렷한 극한 강우 조건을 포착하는 데 더 적합합니다.
연구팀은 전처리된 데이터를 입력한 후, 상관분석을 통해 강우량과 가장 밀접한 관련이 있는 GFS 변수를 선정했습니다. 연구팀은 관측 기간 동안 각 관측소에서 발생한 극한 강우 과정을 "사건"으로 간주하고, 관측소 간 사건 발생 시간 차이와 빈도를 계산하여 시계열에서의 동기화를 평가했습니다.
연구진은 관측소 간 이벤트 동기화 행렬을 출력한 후, 루뱅 알고리즘을 사용하여 관계를 클러스터링하고 유사한 강우 동기화 특성을 가진 관측소를 동일한 그룹으로 나누었습니다.
합성곱 신경망 모델 축소
클러스터링을 완료한 후,연구팀은 합성곱 신경망 모델을 기반으로 저해상도 GFS 데이터를 점차 현장 규모로 축소했습니다.
연구진은 먼저 GFS 그리드 기상 변수를 검토하고 강수량, 습도, 온도, 기압 등 강수량과 가장 밀접하게 관련된 요소를 유지했습니다.그리고 4차원 형태의 합성곱 신경망 모델에 입력됩니다.
본 연구에 사용된 합성곱 신경망은 합성곱 층과 평탄화 층으로 구분됩니다. 합성곱 층은 입력 변수로부터 공간적 및 시간적 특징을 추출하고, 평탄화 층은 이러한 특징을 뭄바이 자동 기상 관측소에서 측정된 강우량 데이터와 정렬하여 입출력 관계를 구축합니다. 합성곱 신경망에서 포착 및 추출된 지역적 특징은 각 관측소의 일별 강우량을 직접 예측하는 데 사용되며, 거친 해상도의 GFS 데이터에서 세밀한 관측소 수준의 강우량으로 비선형 하향 변환을 수행합니다.
언급할 가치가 있는 것은 다음과 같습니다.연구자들은 또한 과도한 적합을 피하기 위해 조기에 중단하는 등의 방법을 도입했습니다.

전이 학습 미세 조정 최적화
이 연구에서는이 팀은 모델이 일반적인 강우 조건과 극한 강우 사건의 특성을 모두 인식할 수 있도록 전이 학습 방법을 도입했습니다.그 중 기본적인 합성곱 계층은 변경되지 않은 채, 출력 계층에 가까운 부분에서는 매개변수 업데이트를 허용하여 높은 계산 비용과 샘플 부족 문제를 피하는 동시에 모델이 극단적인 샘플에서 과도하게 적합되는 것을 방지합니다.
연구팀은 먼저 뭄바이 관측소의 2015년부터 2023년까지의 전체 강우 자료를 기반으로 합성곱 신경망 기본 모델을 학습하여 일반적인 중강도 및 저강도 강우에 대한 안정적인 예측을 확보했습니다. 또한, 미세 조정 단계에서는 95% 또는 99% 분위수를 초과하는 고강도 강우 샘플을 사용했습니다.모델을 극단적인 사건에 대한 "학습에 집중"하고 극단적인 샘플에 대한 민감도를 높입니다.
시간 및 공간에서의 모델 성능 검증
연구팀은 다양한 통계 지표와 실제 사례를 활용하여 모델의 시스템 성능을 검증했습니다. 그 결과, 이 예측 모델은 기존의 글로벌 예보 시스템(GFS)과 최적화되지 않은 합성곱 신경망 모델보다 여러 측면에서 상당히 우수한 성능을 보였습니다.평가에는 상관 계수(CC), 평균 제곱근 오차(RMSE), 오경보율(FA) 등 일반적인 정량적 지표가 사용됩니다.
전체 강수량 예측 성과
전반적인 강우량 예측 측면에서 전이 학습 모델의 성과가 GFS보다 더 좋습니다.합성곱 신경망을 축소하면 공간 정확도가 크게 향상되어 일반적으로 상관 계수가 높아지고 평균 제곱근 오차(RMSE)가 현저히 낮아져 모델과 관측치 간의 차이를 효과적으로 줄일 수 있었습니다. 전이 학습을 도입함으로써 모델은 중강도에서 고강도 강우 예측에 더욱 강력해졌고, 과소 예측을 줄일 수 있었습니다. 전반적으로 전이 학습은 1~3일 전 예보에서 다른 모델보다 우수한 성능을 보였으며, 특히 2일 전 예보에서 뛰어난 성능을 보였습니다.

극한 강우 예측에서 전이 학습은 모델의 극한 샘플을 식별하는 능력을 향상시킵니다.95%와 99% 분위수 검정에서 전이 학습 모델의 시간 예측 정확도는 GFS 모델보다 60%~400% 더 높았습니다. 1일차와 2일차 예보는 대부분의 강우 과정을 조기에 포착하여 오경보율을 효과적으로 줄일 수 있습니다.


지역 성과 모델 및 실제 적용
이 연구는 이벤트 동기화 및 공간 클러스터링 기법을 사용하여 뭄바이 여러 지역의 강우량 예측을 동기화하는 모델의 성능을 검증했습니다. 그 결과, 전이 학습 모델은 단일 지점 예측에서 사전 최적화된 모델보다 우수한 성능을 보였을 뿐만 아니라, 지점 간 공간 클러스터링 특성도 재현하는 것으로 나타났습니다.

인도, 대규모 지방주권 모델 구축으로 인공지능 분야 진출 가속화
실제로, 몬순 예측 모델과 같은 AI 성과의 적용에 대한 학계의 관심 외에도,인도 정부 역시 AI 개발을 주도하고 있다.아슈위니 바이슈나우 전자정보기술부 장관은 최근 국가 차원의 "인도AI 미션(IndiaAI Mission)" 출범을 발표했습니다. 이 미션의 목표는 향후 6개월에서 10개월 내에 여러 토착 기반 모델 개발을 완료하는 것입니다. 이 대규모 언어 모델은 인도의 다언어 및 다문화 환경을 염두에 두고 설계되며, 현지 사회적 요구에 최적화될 것입니다. 이를 위해 인도는 전 세계에서 약 18,600개의 GPU를 구매하여 인도AI 컴퓨팅 시설(IndiaAI Compute Facility)을 구축하여 기본적인 컴퓨팅 성능을 지속적으로 공급하고 있습니다.
동시에,인도 정부는 독립적이고 통제 가능한 핵심 기술을 형성하기 위해 현지 AI 기업인 Sarvam을 핵심 파트너로 선정하여 인도 최초의 "주권적 빅 모델"을 구축하는 작업을 맡았습니다.이 모델은 인도의 여러 언어를 처리할 수 있으며, 대규모 애플리케이션 시나리오에 대한 추론 및 적응성을 강조합니다. 향후 의료 및 정부 업무 등 다양한 분야에 적용될 수 있을 것입니다.
또한 인도 정부는 AI 학습에 사용할 수 있는 공개 데이터와 민감하지 않은 데이터를 중앙에서 관리, 공개 및 공유하는 것을 목표로 하는 AI 코샤(AI Kosha) 데이터 플랫폼을 출시했습니다. 인도 AI 컴퓨팅 시설은 스타트업과 연구팀에 보조금을 지급하여 GPU 사용 권한을 제공할 예정입니다.우리는 유럽, 미국, 동아시아와 비교 가능한 R&D 환경을 빠르게 구축하고자 합니다.
IndiaAI 미션이 진행됨에 따라 인도가 점차 글로벌 AI 경쟁 환경에서 추종자에서 적극적인 참여자로 변모할 것이라는 점은 예측하기 어렵지 않습니다.
참조 링크:
1.https://timesofindia.indiatimes.com/technology/artificial-intelligence/government-selects-indian-ai-company-sarvam-to-develop-nations-first-sovereign-large-language-model/articleshow/120645896.cms
2.https://indiaai.gov.in/article/union-minister-of-electronics-it-railways-and-i-b-announces-the-availability-of-18-000-affordable-ai-compute-units
3.https://www.electronicsforyou.biz/industry-buzz/indiaai-mission-expands-to-18693-gpus-for-rd/