コロラド州立大学がランダムフォレストアルゴリズムを使用して中期的な悪天候を予測するCSU-MLPモデルをリリース

特色图像

天気予報、特に悪天候の予報は、人々の日常の仕事や生活に重要な影響を与えます。シグマの調査報告書「経済蓄積と気候変動の時代における自然災害」は、2019年だけでも悪天候による世界的な損失が増加していることを示しています。関連する災害によって引き起こされる世界的な経済損失は 1,460 億米ドルに達し、保険損害額は 600 億米ドルに達します。さらに、報告書は、気象災害がますます破壊的になるにつれて、関連する損失は将来さらに拡大するだろうとも述べています。したがって、悪天候を正確に予測することが特に急務となっています。

最近、コロラド州立大学のアーロン J. ヒル氏とラス S. シューマッハ氏、および米国海洋大気庁 (NOAA) 嵐予測センター (SPC) のイスラエル ジラック氏は、ランダム フォレストに基づく機械学習モデル CSU-MLP を共同開発しました。このモデルは、中期 (4 ~ 8 日間) の範囲の悪天候を正確に予測できます。結果は「Weather and Forecasting」誌に掲載された。

その結果は「天気と予報」に掲載されました。

用紙のアドレス:

https://arxiv.org/abs/2208.02383

 CSU-MLP の概要

米国における悪天候の予測は、一般に数値気象予測 (NWP) モデルを使用して上記の SPC によって予測されます。このモデルは、特定の悪天候とその発生場所を 1 ~ 2 日前に警告します。ただし、発生場所を警告できるのは3~8日前までで、どのような悪天候になるかを予測することは不可能だ。

過去 10 年間で、高解像度の数値天気予報モデル CAM (対流許容モデル) が登場し、4 日未満の時間範囲 (短期) の予報はより正確になりましたが、中長期の予報はより正確になりました。期間の時間範囲では、予測効果は大きく変わりません。この文脈では、機械学習は気象学の分野でも徐々に応用されつつあります。

この研究では、CSU-MLP (コロラド州立大学機械学習確率) のモデル トレーニング用の気象データは、Global Ensemble Forecast System バージョン 12 (GEFSv12) 再予測データ セット (以下、GEFS/R と呼びます) から取得されます。このデータセットには、次のデータが含まれています。米国本土の 20 年分の詳細な過去の気象データ。研究者らは、この中期予測研究のトレーニング セットとして 9 年間 (2003 年から 2012 年) のデータを選択しました。2 年 (2020 ~ 2022 年) がテスト セットとして選択されました。

 ランダムフォレストアルゴリズム 

この研究は、ランダム フォレスト (RF) と呼ばれる機械学習アルゴリズムに基づいています。いわゆるランダム フォレストは、アンサンブル学習に基づいた分類および回帰アルゴリズムです。具体的には、この研究では、荒天特徴入力を使用して決定木全体を走査し、荒天の予測結果を取得します。

したがって、ランダムフォレストアルゴリズムでは、この研究実験では厳しい気象特性の入力が特に重要です。研究者らは、訓練用に上記の訓練セットから悪天候に関連する12個の特徴変数を抽出した。具体的な特性変数を以下の表に示します。

モデルのトレーニングと予測のための 12 個の特徴変数

ただし、GEFS/R データセットでは、これらの特徴量の分解能が一貫していないため、研究者らは補間処理を実行しました。0.5度のグリッド間隔(ダージーグリッド間隔)に統一されています。

 特徴エンジニアリング 

この研究では、中期の悪天候の予測と分析機能にランダム フォレストを使用することに加えて、特徴量エンジニアリングについても簡単に調査します。いわゆる特徴エンジニアリングとは、観察されたイベントの周囲から特徴を収集し、それらを機械学習アルゴリズムで使用できる形式に変換するために使用されるデータ処理技術を指します。特にこの実験のために、研究者らは特徴を単純化するために主に 2 つの方法を提案しました。特徴量の空間的平均化や時間差法(タイムラギング)などを含みます。

空間平均とは、研究者が各予測空間点におけるすべての特徴変数の値を平均することを提案することを指します。それでノイズの多いデータの干渉を軽減し、モデルのパフォーマンスを向上させることができます。具体的なプロセスを下図に示します。

特徴量結合処理方法

タイムラグ法とは、予測またはモデル化プロセスを指します。過去の期間からの遅延観測データは、現在の時点での予測またはモデル化に適用されます。

これは、過去の観測データが現在の状況と将来の傾向について有用な情報を提供できるという前提に基づいています。この実験では、研究者らはタイムラグ法を使用して GEFS/R データセットのサイズを拡大しました。ただし、このプロセスではモデルに対する追加の計算は行われません。

 試験結果

研究者らは、GEFSv12 の 1.5 年分のリアルタイム天気予報を使用して CSU-MLP の予報結果をテストし、SPC によって生成された手動予報と比較しました。関連するテスト結果は次のことを示しています中期予測の範囲内では、ランダムフォレストベースの予測システムの精度と予測地理的範囲はSPCよりも優れています。以下に示すように。ただし、時間範囲が長くなると、両方の予測機能が低下します。

2022年3月27日時点のCSU-MLPとSPCの中期予想の比較

写真aはCSU-MLPの4日間の天気予報、写真bはSPCの4日間の天気予報です。で、影付きの領域は、悪天候の予測確率を示します。円形のアイコンは、SPC による竜巻 (赤)、ひょう (緑)、嵐 (青) の地域予報を示しています。写真の左下隅と右下隅は、それぞれ天気予報の精度を評価する予測スキル スコア BSS です。地域の天気予報の代表的な観測範囲の評価。

この点において、研究者らは、予測システム全体のスキルと精度が大幅に向上したと結論付けました。その主な理由は、ランダムフォレストに基づく予測システムが連続確率や低確率コンター(荒天を推定する確率が低い領域で形成されるコンター)の予測能力が高いためです。

さらに、研究者らは、さまざまな地域やさまざまな要因(熱力学や動力学)が予測に与える影響についても実験しました。悪天候の予測に重要な特性変数が調査されます。結果を以下に示します。

天気予報にはさまざまな特性変数が重要です

上述のさまざまな要因やさまざまな地域が予報に与える具体的な影響についてはさらに研究する必要がありますが、研究者らは予備的な判断を下しています。これらのさまざまな特性変数はモデルによってさらに学習され、厳しい天気予報に使用されるでしょう。これはまた、ランダム フォレストに基づく予測システムは、さらなるトレーニングと改善を経て、一定の信頼性と実用性を備えています。

もちろん、今回の実験において研究者らは、ランダムフォレストに基づく予測システムにはまだ改善の必要な部分が多いことも指摘した。例えば、CSU-MLP は、SPC 手動予測からの予測データを追加する必要もあります。機械学習の予測結果の信頼性をさらに高めます。

 AIインテリジェント天気の新たな段階が到来するかもしれない

人間は常に世界を理解して予測することに取り組んできましたが、より成功した例の 1 つは天気予報です。古代では、人々は主に「朝焼けは消えないが、現代では夕焼けは何千マイルも伝わるだろう」など、人生経験に基づいて予測を立てていました。科学者は、より正確な予測を行うために、センサーや気象衛星を使用して膨大な量のデータを収集し始めています。

気象学の発展の現段階では、AI の追加により天気予報の精度が大幅に向上していることは注目に値します。海外メディアの報道によると、近年、スイスの気象研究者らがAIを導入して雷の発生時刻と位置を予測することに成功した。モデルの現在の予測精度は 80% に達します。

同時に、2015 年には、IBM は WeatherChannel の親会社である Weather Co. のデジタルおよびデータ資産を買収するために 20 億米ドルを費やしました。同社がこれほど多額の資金を費やした理由は、次のことを計画していたからです。 Weather Co. の気象データと予測情報を同社の AI サービス Watson と組み合わせます。見える、IBMなどの大手企業はすでに気象分野におけるAIの可能性について非常に楽観的であり、計画を立て始めている。

予測することは難しくありませんが、天気の変化に影響を与える客観的な要因は何千もありますが、正確な天気予報は依然として困難です。しかし、AIと気象学の統合がさらに深まるにつれ、AIが定義するスマート天気の新時代が加速する可能性があります。

追伸:

この論文のコードとデータセットは HyperAI 公式 Web サイト Hyper.ai で公開される予定です。興味のあるパートナーは引き続き注目してください。