HyperAI초신경

콜로라도 주립대학교, 랜덤 포레스트 알고리즘을 활용한 중기 심각한 기상 예측 모델 CSU-MLP 출시

特色图像

날씨 예보, 특히 심각한 날씨 예보는 사람들의 일상 업무와 삶에 중요한 영향을 미칩니다. 시그마 연구 보고서 "경제적 축적과 기후 변화 시대의 자연재해"에 따르면, 심각한 기상 현상으로 인한 전 세계적 손실이 최근 몇 년 동안 계속해서 증가하고 있는 것으로 나타났습니다. 2019년에만관련 재난으로 인해 발생한 전 세계적 경제적 손실은 1,460억 달러에 달했고, 보험 손실은 600억 달러에 달했습니다.보고서는 또한 심각한 기상 재해가 점점 더 파괴적이 되면서 앞으로 관련 손실이 더욱 심해질 것이라고 밝혔습니다. 그러므로 심각한 기상 상황을 정확하게 예측하는 것이 특히 시급합니다.

최근 콜로라도 주립 대학의 Aaron J. Hill과 Russ S. Schumacher, 그리고 미국 해양대기청(NOAA) 폭풍 예측 센터(SPC)의 Israel Jirak은 랜덤 포레스트를 기반으로 한 머신 러닝 모델인 CSU-MLP를 공동으로 개발했습니다.이 모델은 중기적으로(4~8일) 심각한 기상 상황을 정확하게 예측할 수 있습니다.해당 연구 결과는 Weather and Forecasting 저널에 게재되었습니다.

해당 결과는 Weather and Forecasting에 게재되었습니다.

서류 주소:

https://arxiv.org/abs/2208.02383

 CSU-MLP 개요

미국의 심각한 기상 예보는 일반적으로 위에 언급된 SPC가 수치 기상 예측(NWP) 모델을 사용하여 실시하는데, 이를 통해 특정 심각한 기상 현상과 발생 위치를 1~2일 전에 경고할 수 있습니다.그러나 3~8일 전에는 단지 날씨가 발생할 위치에 대한 경고만 할 수 있을 뿐, 어떤 종류의 악천후가 될지는 예측할 수 없습니다.

지난 10년 동안 고해상도 수치 기상 예측 모델(CAM, 대류 허용 모델)이 등장했습니다. 4일 미만의 기간(단기)에 대한 예측은 정확도가 높아졌지만, 중기 및 장기 기간에 대한 예측 효과는 크게 개선되지 않았습니다. 이러한 맥락에서,머신러닝은 점차 기상학 분야에 적용되고 있습니다.

CSU-MLP(콜로라도 주립대학교 기계 학습 확률) 연구에서는 모델 학습을 위한 기상 데이터를 글로벌 앙상블 예보 시스템 버전 12(GEFSv12) 재예보 데이터 세트(이하 GEFS/R이라 함)에서 가져왔습니다. 이 데이터 세트에는 미국 본토의 20년간의 자세한 과거 기상 데이터가 포함되어 있습니다.연구자들은 중기 예측 연구를 위한 훈련 세트로 9년간의 데이터(2003~2012년)를 선택했습니다.2년(2020-2022)이 테스트 세트로 선택되었습니다.

 랜덤 포레스트 알고리즘 

이 연구는 랜덤 포레스트(RF)라는 머신 러닝 알고리즘을 기반으로 합니다.랜덤 포레스트는 앙상블 학습을 기반으로 한 분류 및 회귀 알고리즘입니다.특히 이 연구에서는 심각한 기상 특성을 입력하고 전체 의사결정 트리를 탐색하여 심각한 기상 예측 결과를 얻습니다.

따라서 랜덤 포레스트 알고리즘에서는 악천후의 특징 입력이 특히 중요합니다.연구자들은 위에서 언급한 훈련 세트에서 심각한 기상 현상과 관련된 12개의 특징 변수를 추출하여 훈련을 실시했습니다.구체적인 특성 변수는 다음 표에 나와 있습니다.

모델 학습 및 예측을 위한 12개의 특징 변수

그러나 GEFS/R 데이터 세트에서는 이러한 특성 변수의 해상도가 일관되지 않아 연구자들은 보간 처리를 수행했습니다.0.5도 격자 간격(dergee 격자 간격)으로 통일되었습니다.

 피처 엔지니어링 

이 연구에서는 중기적 심각한 기상 예보 분석 역량을 위해 랜덤 포레스트를 사용하는 것 외에도 피처 엔지니어링을 간략하게 살펴보았습니다. 피처 엔지니어링은 관찰된 이벤트 주변에서 피처를 수집하고 이를 머신 러닝 알고리즘에서 사용할 수 있는 형태로 변환하는 데 사용되는 데이터 처리 기술을 말합니다. 특히 이 실험에서 연구진은 특징을 단순화하기 위해 주로 두 가지 방법을 제안했습니다.공간적 평균화와 시간 지연을 포함합니다.

공간 평균화는 연구자들이 각 예측 공간 지점에서 모든 특성 변수의 평균값을 취하는 것을 말합니다.그래서노이즈가 많은 데이터의 간섭을 줄이면 모델 성능이 향상될 수 있습니다.구체적인 과정은 아래 그림과 같습니다.

특징 변수 조합 처리 방법

시간 지연 방법은 예측이나 모델링 과정을 말합니다.과거 특정 시점의 관찰 결과를 현재 시점의 예측이나 모델링에 지연하여 적용하는 것을 말합니다.

이는 과거의 관측 자료가 현재 상태와 미래 추세에 대한 유용한 정보를 제공할 수 있다는 가정에 기초합니다.이 실험에서 연구진은 시간 지연 방법을 사용하여 GEFS/R 데이터 세트의 크기를 확장했습니다.하지만 이 과정은 모델에 추가적인 계산 노력을 발생시키지 않습니다.

 테스트 결과

연구진은 GEFSv12의 1.5년간의 실시간 날씨 예보를 사용하여 CSU-MLP 예측을 테스트하고 SPC에서 생성된 수동 예보와 비교했습니다. 관련 테스트 결과는 다음과 같습니다.중기 예측 범위에서는 랜덤 포레스트 기반 예측 시스템의 정확도와 예측 영역이 SPC보다 우수합니다.아래 그림과 같습니다. 그러나 시간 범위가 늘어날수록 두 예측 능력은 모두 감소합니다.

2022년 3월 27일 CSU-MLP와 SPC 중기 전망 비교

그림 a는 CSU-MLP의 4일 예보이고, 그림 b는 SPC의 4일 예보입니다. 안에,음영 처리된 부분은 심각한 기상 현상이 발생할 확률을 나타냅니다.원형 아이콘은 토네이도(빨간색), 우박(녹색), 폭풍(파란색)에 대한 SPC의 지역 예보를 나타내며, 이미지의 왼쪽 하단과 오른쪽 하단 모서리는 각각 날씨 예보의 정확성을 평가하기 위한 예보 기술 점수 BSS와 지역 날씨 예보의 대표성을 평가하기 위한 관측 범위를 나타냅니다.

이와 관련하여 연구진은 전체 예측 시스템의 기술과 정확성이 크게 향상되었다고 결론지었습니다.이는 주로 랜덤 포레스트 기반 예측 시스템이 연속 확률 및 저확률 등고선(심각한 기상 예측에서 확률이 낮은 지역에 의해 형성된 등고선) 모두에서 강력한 예측 능력을 갖추고 있기 때문입니다..

또한 연구진은 다양한 지역과 다양한 요인(열역학 및 동역학)이 예측에 미치는 영향을 테스트했습니다.심각한 기상 예보에 중요한 특성 변수가 탐색되었습니다.결과는 아래 그림과 같습니다.

다양한 특성 변수가 날씨 예보에 중요합니다.

위에 언급된 요인과 지역이 예보에 미치는 구체적인 영향은 아직 추가 연구가 필요하지만, 연구자들은 다음과 같은 예비 판단을 내렸습니다. 이러한 다양한 특성 변수는 모델을 통해 더욱 학습되어 심각한 기상 예보에 사용될 수 있을 것입니다. 이는 또한 다음을 보여줍니다.랜덤 포레스트에 기반한 예측 시스템은 계속해서 훈련되고 개선되어 왔으며, 일정한 신뢰성과 실용성을 갖추고 있습니다.

물론, 이 실험을 진행하면서 연구진은 랜덤 포레스트 기반 예측 시스템에는 아직 개선해야 할 측면이 많다는 점도 지적했습니다. 예를 들어,CSU-MLP도 SPC 수동 예측의 예측 데이터를 추가해야 합니다.머신 러닝 예측 결과의 신뢰성을 더욱 향상시킵니다.

 AI 지능형 기상학의 새로운 단계가 도래할 수도 있습니다.

인간은 늘 세상을 이해하고 예측하기 위해 노력해 왔으며, 가장 성공적인 예 중 하나가 날씨 예보입니다. 옛날 사람들은 주로 자신의 삶의 경험에 근거하여 예측을 했습니다. 예를 들어, "아침 햇살이 비치면 나가지 말고, 저녁 햇살이 비치면 수천 리까지 갈 수 있다"와 같은 예측이었습니다. 현대에는과학자들은 더욱 정확한 예측을 위해 센서와 기상 위성을 사용하여 방대한 양의 데이터를 수집하기 시작했습니다.

현재 기상학 발전 단계에서 주목할 점은 AI가 추가되면서 날씨 예보의 정확도가 크게 향상되었다는 것입니다. 외신 보도에 따르면,최근 몇 년 동안 스위스 기상 연구자들은 AI를 도입하여 번개가 치는 시간과 위치를 예측하는 데 성공했습니다.현재 이 모델의 예측 정확도는 80%입니다.

동시에, IBM은 2015년 초에 Weather Channel의 모회사인 Weather Co.의 디지털 및 데이터 자산을 인수하는 데 20억 달러를 지출했습니다. 회사가 이렇게 많은 돈을 지출한 이유는 Weather Co.의 날씨 데이터와 예보 정보를 자사의 AI 서비스인 Watson과 결합할 계획이었기 때문입니다. 보이는,IBM과 같은 거대 기업은 기상학에서 AI의 잠재력에 대해 매우 낙관적이며 계획을 세우기 시작했습니다.

예측하기 어렵지 않습니다. 날씨 변화에 영향을 미치는 객관적인 요소는 수천 가지가 있지만, 날씨를 정확하게 예측하는 것은 여전히 어렵습니다.하지만 AI와 기상학의 통합이 심화됨에 따라 AI가 정의하는 지능형 기상학의 새로운 시대가 더 빨리 도래할 수도 있습니다.

추신:

이 논문의 코드와 데이터 세트는 HyperAI의 공식 웹사이트 Hyper.ai에 공개될 예정입니다. 관심 있는 파트너분들은 계속 관심을 가져주시기 바랍니다~