Command Palette

Search for a command to run...

最大20倍の効率アップ!カリフォルニア大学は、自己回帰気象予報モデルにおける誤差蓄積の問題を解決するためにOmniCastを開発しました。

Featured Image

季節間天気予報(S2S)は、短期天気予報と長期気候予測の中間に位置し、今後2~6週間の気象変化に焦点を当てています。中長期気象予報のギャップを正確に埋め、農業計画や防災に不可欠な情報を提供します。しかし、S2S天気予報は、急速に減衰する初期の大気情報(短中期予報条件)に頼ることが難しく、また、まだ完全には現れていない緩やかに変化する境界シグナル(気候予測条件)を捉えることができません。カオス的な大気システムや複雑な陸海相互作用の下では、予報の難易度は著しく高まります。

近年、従来の数値気象予報(NWP)システムからディープラーニングを活用した気象予測手法への技術的イテレーションは、S2S気象予報の発展を促進する上で重要な役割を果たしてきました。しかしながら、S2Sの実用化には依然として多くの課題が残っています。例えば、従来の数値解析手法は主に複雑な物理方程式を解くことに依存しており、計算コストが高いだけでなく、時間もかかります。データ駆動型の方法は短期予測においてスピード、正確性、精度を実現しますが、自己回帰設計ベースのアプローチでは前回の予測結果に基づいて次のステップを計算します。より長期的な S2S アプリケーションでは、誤差が雪だるま式に蓄積され、S2S 天気予報における極めて重要な、ゆっくり変化する境界強制信号も無視されます。

この問題を解決するため、UCLAのチームはアルゴンヌ国立研究所と共同で、高精度確率S2S天気予報のための新たな潜在拡散モデル「OmniCast」を提案しました。このモデルは、変分オートエンコーダ(VAE)とTransformerモデルを組み合わせ、時間と空間にわたるジョイントサンプリング手法を採用しています。自己回帰法の誤差蓄積問題を大幅に軽減できると同時に、初期条件を超えた気象ダイナミクスを学習することもできます。実験により、このモデルは、精度、物理的一貫性、確率的測定基準の点で現在の方法の中で最高のパフォーマンスを達成することが示されました。

「OmniCast: 時間スケール全体にわたる天気予報のためのマスクされた潜在拡散モデル」と題された関連研究は、トップクラスの AI 学術会議 NeurIPS 2025 に選出されました。

研究のハイライト:

OmniCast は、将来の天気を生成するために時空間次元を同時に考慮することにより、自己回帰設計に基づくモデルにおける誤差の蓄積の問題を解決します。

OmniCast は、短期的な天気予報に必要な初期の大気情報と、気候予測に必要なゆっくりと変化する境界強制条件を同時に考慮することができます。

* OmniCast は、精度、物理的一貫性、確率予測において既存の方法よりも優れており、計算速度は現在主流の方法の 10 ~ 20 倍高速です。

用紙のアドレス:

https://go.hyper.ai/YANIu

AIフロンティアに関するその他の論文:
https://hyper.ai/papers

データセット: 広く使用されている ERA5 データセットに基づいており、さまざまな予測タスクに合わせて調整されています。

OmniCastのトレーニングと評価において適切かつ合理的なサポートを確実に受けられるように、本研究では気象分野で広く使用されているERA5高解像度再解析データセットを基本データソースとして採用しました。中期気象予報とS2S気象予報という2つの異なる予測タスクについてデータ前処理を実施し、異なるタスク要件に適合したベンチマークセットとして活用しました。

具体的には、この研究では、まずERA5再解析データセットから69の気象変数を抽出しました。コア指標には主に 2 つのカテゴリがあります。

地面変数(4つのカテゴリ):2メートルの気温(T2m)、10メートルのU風速成分(U10)、10メートルのV風速成分(V10)、および平均海面気圧(MSLP)。

大気変数(5つのカテゴリー)ジオポテンシャル高度(Z)、気温(T)、U方向の風速成分、V方向の風速成分、および比湿(Q)。大気変数は、50、100、150、200、250、300、400、500、600、700、850、925、1000の13の気圧層(単位:hPa)をカバーします。

その後、さまざまな予測タスクについて、研究では時間の範囲に基づいてデータをトレーニング セット、検証 セット、テスト セットに分割しました。

中期天気予報課題:ベンチマークテストセットとしてWeatherBench2 (WB2) を使用しました。トレーニングセットは1979年から2018年まで、検証セットは2019年から2020年まで、テストセットは2020年から2021年までの範囲です。初期条件では、00:00(UTC)と12:00(UTC)のデータを使用しています。解像度はネイティブの0.25°(721 x 1440グリッド)です。

S2S天気予報タスク:ベンチマークセットとしてChaosBenchを使用します。トレーニングセットは1979年から2020年までの期間、検証セットは2021年からの期間、テストセットは2022年からの期間をカバーします。初期条件は00:00(UTC)のデータです。解像度は1.40625°(128 x 256グリッド)です。

OmniCastモデル:S2S天気予報の新しいパラダイムのための2段階設計

OmniCast の核となる機能は、従来の自己回帰モデルの誤差蓄積問題を回避する機能にあります。これにより、短期天気予報と長期気候予報の両方の要件を考慮した機能を構築し、S2S 天気予報の実際のアプリケーションに使用可能で信頼性の高いツールを提供します。 SeasonCast モデルのコア アーキテクチャは、「2 フェーズ」設計に基づいています。まず、VAE を使用してデータの次元削減を実現し、次に拡散ヘッドを備えた Transformer を使用して時系列生成を実現します。

最初のフェーズのコア モジュールは、UNet アーキテクチャを使用して実装された VAE です。その中核機能は「次元削減」と「再構成」であり、高次元の生の気象データを低次元の連続潜在トークン(潜在特徴ベクトル)に圧縮することで、大きな変数と高い空間解像度によって引き起こされる計算効率の問題を軽減します。VAEは69個の入出力チャネルを備え、それぞれが69個の気象変数に対応しています。例えば、S2S気象予測タスクにおいて、VAEエンコーダーは69 x 128 x 256サイズの生の気象データを1024 x 8 x 16サイズの潜在マッピングに圧縮し、空間次元圧縮率16を達成できます。VAEは生成時に、Transformerによって出力された潜在トークンを元の次元の気象データ(気温や気圧など)に復元します。

本研究では、離散VAEではなく連続VAEが用いられたことは特筆に値します。これは、離散VAEは圧縮率が高すぎることや、気象データ変数の数が多いために情報が大きく失われるといった問題を抱えており、第二段階の生成モデリングの性能に悪影響を与える可能性があるためです。一方、連続VAEは圧縮率がわずか100分の1であるため、数百もの物理変数を含む可能性のある気象条件において、より重要な気象情報を保持することができます。

第 2 ステージのコア モジュールは、マスクを生成するトランスフォーマーです (下の図を参照)。マスク付きオートエンコーダ(MAE)エンコーダ・デコーダアーキテクチャを採用しています。これは、「エラーのない累積生成」を実現するための鍵であり、マスク学習と拡散予測を通じて将来の全シーケンス潜在トークンを直接モデル化します。構造的には双方向エンコーダ・デコーダアーキテクチャを採用しており、初期条件と既に生成された可視トークンを用いてマスク部分の同時予測をサポートします。Transformerアーキテクチャは16層ネットワークで構成され、各層には16個のアテンションヘッド、隠れ層の次元数は1024、ドロップアウト率は0.1です。

変圧器バックボーンネットワークの動作図

さらに、潜在トークンは連続ベクトルであるため、従来の分類ヘッドではその分布をモデル化できません。そのため、Transformerの出力後に拡散モデルヘッド(小規模なMLP実装)を接続し、マスク内の潜在トークンの分布を予測します(下図参照)。

ノイズ除去ネットワークeθはziとxsiに基づいてノイズϵを予測します。

短期予測の精度を向上させるため、この研究では補助的な平均二乗誤差損失も導入した。具体的には、短期天気予報では、気象システムのカオス性は10日後には著しく増大するため、決定論的予測の重要性は徐々に低下します。MLP決定論的ヘッダーを追加することで、最初の10フレームの潜在トークンのMSE損失を計算できます。さらに、指数関数的に減少する重み付け戦略を採用することで、初期フレームにおける正確な予測の重要性を強調できます。

結果のショーケース: 他の 2 つの方法と比較すると、効率はベースライン モデルの 10 ~ 20 倍高くなります。

OmniCastの有効性と進歩を検証するために、研究者たちはそれを2つの主流の方法と比較した。1つは最先端のディープラーニング手法、もう1つは従来の物理モデルに基づく数値解析手法です。前述の通り、実験検証には中期気象予報とS2S気象予報という2つのタスクが含まれていました。分析指標には、精度、物理的一貫性、確率的性能が含まれていました。

まず、S2S天気予報タスクでは、研究者らは、OmniCastを2つのディープラーニング手法であるPanguWeather(PW)とGraphCast(GC)、および4つの国と地域の数値モデルアンサンブルシステムであるUKMO-ENS(英国)、NCEP-ENS(米国)、CMA-ENS(中国)、ECMWF-ENS(欧州)と比較しました。

精度指標(二乗平均平方根誤差(RMSE)、絶対バイアス(ABS BIAS)、マルチスケール構造類似性位相(SSIM))に関して、OmniCastは短期予測リードタイムにおいて、RMSEとSSIMの両方において他のベンチマークモデルよりも予想通り劣っています。これはもちろんOmniCastの学習目標によるものですが、予測リードタイムが長くなるにつれて、相対的なパフォーマンスは徐々に向上していくでしょう。10日後にはECMWF-ENSに匹敵する最適なパフォーマンスを実現します。以下に示すように:

3 つの主要変数に基づく 1 ~ 44 日の予測リードタイム内でのさまざまな手法の予測決定論的パフォーマンス: 実線はディープラーニング手法、破線は数値手法を表します。

注目に値するのは、OmniCast は、すべてのベンチマーク モデルの中で最も小さい偏差を示します。3 種類のターゲット変数すべての予測では、バイアスはほぼゼロに維持されました。

物理的な一貫性という点では、OmniCast の物理的な一貫性は、他のディープラーニング手法よりもはるかに優れています。さらに、ほとんどの場合、その性能はすべてのベンチマークモデルを上回っています。この結果は、OmniCastがさまざまな周波数範囲にわたって信号を効果的に保持し、予測の物理的な妥当性を確保できることを示しています。(下図参照)

3 つの主要変数に基づく、1 ~ 44 日間の予測リードタイム内でのさまざまな手法の物理的一貫性指標。実線はディープラーニング手法、破線は数値手法を表します。

確率指標(連続ランキング確率スコア(CRPS)と離散スキル比(SSR、後者は1に近いほど良い))に関しては、精度指標と同様に、より短い予測リードタイム内で、OmniCast のパフォーマンスは ECMWF-ENS よりわずかに劣りますが、15 日後にはそれを上回ります。まとめると、OmniCast と ECMWF-ENS は、さまざまな変数と異なる予測リードタイムにおいて、最も優れたパフォーマンスを発揮する 2 つの手法です。(下の図を参照)

3 つの主要変数に基づく、1 ~ 44 日の予測リードタイム内でのさまざまな方法の確率指標。実線はディープラーニング手法、破線は数値手法を表します。

研究チームは上記の実験に加え、今年提案された長期気象予測のためのディープラーニング手法であるClimaX(Transformerアーキテクチャベース)とStormer(改良グラフニューラルネットワークベース)ともOmniCastを比較しました。その結果、OmniCastがすべての指標で両者を凌駕していることが示されました。RMSE指標では、T850とZ500はそれぞれClimaXより16.81 TP3Tと16.01 TP3T低く、Stormerより11.61 TP3Tと10.21 TP3T低くなっています。CRPS指標では、ClimaXより20.21 TP3Tと17.11 TP3T低く、Stormerより13.91 TP3Tと11.01 TP3T低くなっています。これらの結果はOmniCastの優位性を実証しています。  長期的な天気予報に大きな利点があります。潜在拡散モデルとマスク生成フレームワークを組み合わせることで、気象シーケンスにおける長期的な依存関係をモデル化する能力は、従来のディープラーニングアーキテクチャを上回ります。(下図参照)

OmniCastと他のディープラーニング手法の精度比較

そして、中期気象予報ミッションでは、研究チームは、OmniCastを2つのベンチマークモデルと比較しました。1つは確率予測における主流のディープラーニング手法であるGencast、もう1つは数値アンサンブル予測システムの「ゴールドスタンダード」であるIFS-ENSで、RMSE、CRPS、SSRを評価指標として使用しました。下の図をご覧ください。

中期予測におけるさまざまな手法の確率的パフォーマンス: 実線はディープラーニング手法、破線は数値手法を表します。

結果は、OmniCastがすべての変数と指標においてIFS-ENSと同等のパフォーマンスを示し、Gencastよりわずかに劣るのみであることを示しました。しかし、補足的な効率性実験により、OmniCastは潜在空間モデリング設計(高次元の生の気象データではなく低次元の潜在トークンを計算に使用)の恩恵を受けていることが明らかになりました。  あらゆるベンチマークモデルよりも10~20倍高速です。

さらに、下の画像に示すように、OmniCast では、32 個の NVIDIA A100 GPU で 4 日間のトレーニングのみが必要です。比較すると、GencastはA100よりも高性能な32台のTPUv5eデバイスで5日間のトレーニングが必要ですが、NeuralGCMは128台のTPUv5eデバイスで10日間かかります。さらに、Gencastは2段階のトレーニングプロセスを必要とするのに対し、SeasonCastは1段階のみで済みます。推論においても、OmniCastはこれらの手法よりも高速です。0.25°の解像度では、Cencastは480秒かかりますが、OmniCastは同じ予測を完了するのにわずか29秒しかかかりません。1.0°の解像度では、OmniCastの推論時間はわずか11秒ですが、Gencastは同じハードウェアで224秒かかります。

異なる方法を使用して15日間の予測を生成する場合の実行時間と解像度の比較

S2S予報の限界を継続的に打ち破り、中長期の天気予報のギャップを正確に埋めます。

S2S気象予報は、短期気象予報と長期気候予測をシームレスに結びつけるという独自のポジショニングにより、長年にわたり気象分野における中核研究の地位を占めてきました。現在では、学術理論の議論、実験技術のブレークスルー、そして実用化シナリオといった分野や次元を横断する効率的なコミュニケーションネットワークを構築しています。

例えば、今年5月下旬には、世界気象機関(WMO)が主催し、山東大学が主催した「AI+災害予測・早期警報に関する国際シンポジウム」が開催され、30以上の国と地域から300名以上の専門家や学者がオンラインとオフラインの両方で参加しました。この会議では、新たな人工知能技術とS2S予測アプリケーションの統合に焦点を当て、S2S予測が防災・減災に果たす役割について明るい展望を共同で描き出しました。

学術セミナーに加え、実験成果も実りあるものとなった。復旦大学人工知能イノベーション・産業研究所と上海知能科学研究所の李浩研究員と祁元教授のチームは、中国気象局気候研究開放実験室の呂波研究員のチームと協力した。機械学習をベースにした予測モデル「FuXi-S2S」が開発されました。大規模なアンサンブル予報を迅速かつ効果的に生成し、7 秒以内に 42 日間の包括的な予報を完了します。
論文のタイトル:従来の世界的な季節内予測モデルを上回る機械学習モデル
用紙のアドレス:https://www.nature.com/articles/s41467-024-50714-1

ベルリン工科大学、レディング大学などのチームは、北極上空の成層圏極渦(SPV)や熱帯マッデン・ジュリアン振動(MJO)などのS2S気象予報研究に「テレコネクション」現象を導入した。検証は、複雑さが徐々に増していく 3 つのディープラーニング モデルを設計することによって実行されました。まず、基本的なLSTM(Long Short-Term Memory)モデルを開発しました。次に、SPVとMJOのテレコネクション指標を組み込むことで、Index-LSTMモデルを構築しました。最後に、事前計算された指標に頼ることなく、北極圏の上層風速場と熱帯地方の長波放射データを視覚的に直接処理することで、Vit-LSTMモデルを構築しました。3つのモデルの比較分析を通じて、テレコネクション情報がS2S予測の精度向上に重要であることを検証しました。特に、4週目には、Vit-LSTMモデルはスカンジナビアブロッキングと大西洋海嶺の気象パターンの予測においてECMWFモデルを凌駕しました。

論文のタイトル:ディープラーニングとテレコネクションの融合:ヨーロッパの冬の天候のS2S予測の改善
用紙のアドレス:https://arxiv.org/abs/2504.07625

結論として、S2S天気予報を悩ませてきた問題は、技術の進歩とともに減少しています。今後、人工知能(AI)とディープラーニング技術が気象分野にさらに統合されるにつれて、「予測不可能な天気」に対する従来の認識は必然的に完全に打ち砕かれるでしょう。雲を観察して天気を予測するという古代の知恵から、数秒で1か月以上の予報を生成する今日のAIモデルまで、人類の天気に対する理解と制御は、かつてないほど明確なレベルへと進んでいます。