HyperAI

「AI 方法出现之前，每 10 年才可以提高 1 天的气象预报技巧，而引入 AI 后，几个月就能提高预报技巧。」

在 2024 北京智源大会「AI for Science」论坛上，上海人工智能实验室青年研究员苏锐回顾了 AI 气象预报的历史发展，深入探讨了该领域所面临的挑战，并全面介绍了其团队研究成果 FengWu-GHR 。

HyperAI 超神经在不违原意的前提下，对苏锐老师的深度分享进行了整理汇总，一起来解密 AI 气象的最新发展吧！

今天，我给大家分享主题的是「探索未来，智驭气象—人工智能在地球科学研究的前沿进展」。

所谓的地球科学研究，主要是对大气圈层、海洋圈层、生物圈层、岩石圈层及它们之间相互作用、交换和循环过程的研究。事实上，大气与海洋的循环会对地球的气象、气候、生态系统等造成很大影响，模拟和分析大气、海洋的变化，进而预测天气、气候等，对人类的可持续发展至关重要。

AI 预报 vs. 数字预报

过去，基于物理的数字预报模式在研究上取得了很大进展，但其发展速度依然缓慢，并且对计算量的需求非常大。随着深度学习和人工智能在各个领域的成功应用，越来越多的研究机构开始尝试使用数据驱动的方法来进行天气预报。

举例来说，欧洲中期天气预报中心作为国际上公认的权威机构，从 2018 年开始，就率先尝试用深度学习技术来进行天气预报，但受限于当时的低分辨率气象数据，本次的尝试效果一般。

2022 年 2 月，英伟达推出 FourCastNet 气象模型，首次在 0.25° 高分辨率的气象数据上进行预报，不过该模型仍未超越欧洲中期天气预报中心使用的物理数字预报模式，且此模型也只能预测少量的气象要素。

2022 年 11 月，华为推出盘古气象大模型，宣称该模型在高分辨率气象数据上的性能超过了欧洲中期天气预报中心的 IFS 模式，这被视为一次巨大的突破性进展。

1 个月后，Deepmind 公司推出了 GraphCast 气象大模型，该模型的主要特点是可以预测更多不同的气象要素。

2023 年 4 月，我们团队（上海人工智能实验室）推出了自己的气象大模型 FengWu，相较于之前所有的模型，FengWu 在性能上有了显著提升。

AI 驱动，FengWu 模型达到最优台风轨迹预测能力

滚动预测，FengWu 模型的灵感来源

假如我们把地球展开成一个平面，并对该平面进行网格化处理，那么我们就会把全球范围内的经纬度分为 0.25° 空间分辨率（相当于大约 25 公里的尺度）。这意味着全球被划分成大约 720×1440 个格点，每个格点在垂直高度上又分为 37 个不同层次，涉及到如温度、湿度、风速、海平面温度、地表风速等 169 个变量。气象预报就是基于全球气象要素场来预测未来气象要素场的变化。

我们团队分析了过去 40 年内逐时的全球气象要素场数据后发现，每个时刻的全球气象要素场，实际上是上一个时刻要素场的天然标注。因此，在不需要额外标注数据的情况下，我们只需预测相邻两个时间点之间气象要素场的关系，就能够预测未来的气象要素场变化，这就是 FengWu 模型的最初灵感来源。

具体而言，FengWu 模型在预测下一时刻的气象要素场后，将其作为输入再预测下下个时刻的气象要素场，以此类推，这样的滚动预测就能得出未来 14 天要预测的气象要素场。

两大优势：长时间提前预报技巧 + 高计算效率

FengWu 模型具有两大优势，其一是具备长时间的提前预报技巧，能够达到 10.75 天的预报能力。事实上，在 AI 方法出现之前，基于物理的数字预报模式平均每 10 年可以提高 1 天的预报技巧，而引入 AI 后，几个月的时间就能提高预报技巧。

FengWu 模型的另一个优势是计算效率。以往基于物理的数字预报模式需要 1 万个计算节点跑 1 小时，才能生成未来 10 天的预报结果。而 FengWu 模型仅需一张 GPU 跑 30 秒即可完成相同时间的预报结果，超过传统方法的 2,000 倍以上。

喜忧参半，FengWu 在台风预测的优势与挑战

为了评估 FengWu 模型在台风轨迹预测方面的能力，我们团队用 2023 年之后的台风数据进行测试，并将测试结果与欧洲中期气象预报中心、日本气象局、美国气象局等机构的测试结果进行了比较。

结果发现，在提前 0-120 小时预测台风轨迹的情况下，FengWu 模型在每个节点上，预测台风位置的误差都是最小的。

相比传统的物理方法，AI 在预测台风强度这一任务上仍然存在差距。这是由于目前所有基于 AI 方法的模型都是通过数据驱动的方式训练而来，由于台风等极端天气事件的数据相对较少，AI 模型在预测极端天气时会出现结果平滑化的趋势，从而导致其在台风强度预测上表现偏弱。

FengWu-GHR：首次实现 AI 预报分辨率提升至 0.09°

亟待解决：高分辨率和长时间误差累积

事实上，在完成 FengWu 模型的开发后，我们得到了许多气象领域专家的反馈。其中一个反馈是，尽管 FengWu 已经能够实现 0.25° 高分辨率的预测，但他们仍希望能够获得更高分辨率的气象预测结果。另一个反馈是，长时间预测带来的误差累计问题需要进一步解决。

为什么我们需要更精细化、更高分辨率的气象预测呢？

以上海地表温度的图表为例，可以看到，尽管上海并不大，但不同区域的温度差异却很明显。在南北距离仅 80 公里的情况下，如果我们使用 0.25° 的气象预报模型进行预测，可能只能得到大约 3 个网格点数据，这对于描述天气分布的细节是不够的。而更高分辨率的预测数据能够提供更精确的大气运动模拟，进而带来更精细的预报结果。

针对此，我们推出了 FengWu-GHR 模型，这是首个在 0.09° 高分辨率下实现的 AI 气象预报模型，其具体实现过程并不容易。

首先，将分辨率从 0.25° 提升到 0.09°，计算量和内存消耗要增加 80 倍以上。其次，更高分辨率的气象分析数据十分稀缺，但 AI 模型却需要大量的数据进行训练，这让从头训练出一个高分辨率的 AI 气象模型变得极其困难。

为了解决这些问题，我们尝试将高分辨率的大气运动分解为两个不同部分。

首先，使用大量低分辨率数据训练一个模型（元模型）。然后，将高分辨率的气象数据分解成多个低分辨率气象数据，并使用元模型对每个气象数据进行预测。最后，将这些预测结果拼接起来，得到高分辨率的气象预测结果。

然而，这样的做法并没有充分利用高分辨率数据中的非线性关系。因此，在此基础上，我们引入了新的模块和少量参数，利用高分辨率数据对该模块进行训练，让它更好地捕捉高分辨率区域之间的非线性耦合关系。

具体而言，上图左侧的图标是原本的高分辨率场，将其分为 4 个不同低分辨率的场，再用语言模型进行预测，combine 后得到高分辨率场的预测，最后用新增加的模块去捕捉它的非线性。

在处理长期预测带来的累积误差问题时，盘古在每个预测时间点使用单独的训练模型来解决该难题，这是一个很有效的方法，但其训练成本非常高昂。因此，我们在每一步的预测过程增加了 LoRA 模块，并结合少量参数对每一步进行训练，这相当于每一步预测都有了新的模型，但只需要引用少量参数，显著减少了计算成本。

模型评估：FengWu-GHR 实现气象预报再升级

因为目前只有 IFS 达到 0.09° 分辨率的结果，我们将其作为参照标准来验证我们的测试结果。

结果发现，在 RMSE 、 ACC 指标上，FengWu-GHR 都展现出明显的优势，RMSE 更低，ACC 更高。

用指标 Bias 来衡量预测结果偏差，FengWu-GHR 更接近于 0，测试结果更好。用 Activity 指标来衡量随着预测时间增加，预测结果是否会变得更模糊化。结果发现，FengWu-GHR 的预测结果慢慢趋向平滑，该模型仍然没有解决对极端天气预测产生的平滑效应。

通过分析场的数据、 18,000 个不同气象站的实时观测数据，我们使用 2022 年 7-12 月的数据对模型进行检验，以 IFS_HRES 、盘古大模型作对比，FengWu-GHR 在提前任何天数得到的预测结果都占据优势地位。

此外，FengWu-GHR 在热浪预测和寒流预测上也很有优势。