HyperAIHyperAI

Command Palette

Search for a command to run...

14 天前

地球系统的基础模型

Abstract

可靠的地球系统预测对人类进步及防范自然灾害至关重要。人工智能在提升该领域预测精度与计算效率方面具有巨大潜力,但在诸多应用领域仍处于未充分开发状态。本文介绍了“极光”(Aurora)——一个基于超过百万小时多样化数据训练的大规模地球系统基础模型。Aurora 在空气质量预测、海洋波浪模拟、热带气旋路径预测以及高分辨率天气预报等方面的表现,均优于现有业务化预报系统,且所需计算资源仅为现有专用系统的一个数量级甚至更少。得益于其仅需适度计算成本即可针对多种应用场景进行微调的能力,Aurora 标志着地球系统可操作性预测迈向普及化的重要进展,使任何人皆可便捷获取精准的地球系统预测信息。

一句话摘要

来自Silurian AI、阿姆斯特丹大学、剑桥大学、微软公司和宾夕法尼亚大学的研究人员介绍了Aurora,这是一个大规模地球系统预测基础模型,能够在空气质量、海洋波浪、热带气旋和天气预测等多个领域实现卓越的准确性,同时计算成本远低于现有系统,从而为多样化的现实应用场景提供高效的微调能力。

主要贡献

  • Aurora 是一个面向地球系统的大型基础模型,基于超过一百万小时的多样化异构数据(涵盖大气化学、海洋波浪、热带气旋和天气)进行训练,能够通过单一架构统一建模多种地球系统过程。
  • 该模型采用基于Perceiver的3D Swin Transformer编码器与解码器,可处理可变的空间分辨率、气压层级和输入数据类型,在极少微调的情况下即可在各项任务中达到最先进性能。
  • Aurora 在关键指标上超越了现有业务系统——包括空气质量的CAMS、数值波浪模型以及多个热带气旋和天气预报中心——同时所需计算成本低几个数量级,展现出效率与可及性的重大飞跃。

引言

地球系统预测对于减轻自然灾害、支持农业、健康和能源等关键领域至关重要,但传统数值模型计算成本高昂,维护复杂,且受限于次网格过程中的近似处理。以往的AI方法主要集中在粗分辨率天气预报,而在大气化学、海洋波浪和热带气旋追踪等领域的应用成效有限。本文提出Aurora,一个拥有13亿参数的基础模型,通过在多分辨率、多变量、多气压层级的地球系统数据上预训练超过一百万小时,实现了对多种地球系统过程的统一建模。借助基于Perceiver的3D Swin Transformer编码器与解码器,Aurora可针对特定预测任务进行微调,并在四个关键领域——空气质量、海洋波浪、热带气旋路径和高分辨率天气——展现出最先进性能。值得注意的是,Aurora在74%至92%的目标上优于CAMS和IFS HRES等业务系统,且在单个GPU上运行速度最快可达其50,000倍。其对极端事件的泛化能力以及以极低计算成本适应新任务的能力,标志着向实现高精度地球系统预测的民主化迈出了重要一步。

数据集

  • 用于训练和评估Aurora的数据集包含五类:分析数据、再分析数据、预报数据、再预报数据和气候模拟数据。主要数据源包括ERA5、HRES业务预报、IFS集合预报、GFS预报、GEFS再预报、CMIP6气候模拟、MERRA-2以及CAMS的分析、预报和再分析数据。

  • 主要使用的数据集覆盖不同分辨率和时间跨度。ERA5以0.25°分辨率作为高质量再分析基准。HRES预报与分析数据以0.1°分辨率使用,并重采样至0.25°。IFS ENS及其均值在3个气压层(500、700、850 hPa)使用。GFS预报重采样至0.25°。GEFS再预报(2000–2019)使用5个集合成员,位于3个气压层(850、925、1000 hPa)。CMIP6数据集(CMCC-CM2-VHR4 和 ECMWF-IFS-HR)根据分辨率兼容性(0.25° 和 0.45°)和7个气压层的垂直覆盖范围进行选择。MERRA-2和CAMS数据分别以0.4°和0.75°分辨率使用,具有13个共同气压层。HRES-WAM数据重采样至0.25°,并包含波浪特有变量。

  • Aurora在多种数据集的混合数据上进行预训练,训练划分依据各数据集的时间范围。验证使用2020年0.25°分辨率的IFS HRES数据,测试期则因数据集而异(如2022–2023)。对于CAMS,使用稳定期(2021年6月–2022年11月)进行微调与测试,同时包含2017年10月之后的数据以确保在已知数据更新后的鲁棒性。

  • 所有变量均使用基于完整ERA5训练数据的空间恒定均值和标准差进行归一化,所有数据集采用相同的归一化统计量。解码后输出进行去归一化以生成最终预测。对于HRES-WAM,中性风分量(10UN, 10VN)通过风速(WIND)和风向(DWI)的三角函数变换推导得出,并施加负号以反映风向为“来自”而非“指向”。缺失波浪数据(如陆地或海冰区域)用NaN表示,显著波高为零的值替换为NaN以避免虚假数值。

  • 采用自定义的多源数据加载流水线处理异构数据。数据存储于Azure Blob存储中,通过以下优化:计算与数据共置、Zarr格式分块、压缩以及按时间步分组变量。每个数据集通过YAML文件配置,生成轻量级BatchGenerator对象。这些对象流被合并、打乱并分片至各GPU。分片后,每个GPU下载、解压、读取并转换其分配的BatchGenerators数据——确保来自同一数据集的样本被批量处理,且通过可变批大小实现负载均衡。

  • 多样化的数据组合使Aurora能够学习尺度感知表征、鲁棒动力学和物理一致性。气候模拟使模型接触未来与极端情景,预报数据提供合理的气态演化路径,不同模型物理机制的差异(如IFS与GFS)有助于降低偏差。该流水线通过避免多分辨率token混合的约束,支持模型架构的灵活实验。

方法

Aurora模型采用编码器-解码器框架,旨在处理异构地球系统数据,并在任意分辨率和变量组合下生成预测。整体架构包含三个核心组件:3D Perceiver编码器、3D Swin Transformer U-Net骨干网络和3D Perceiver解码器。这种模块化设计使模型能够接收多样化输入,模拟大气动力学,并生成针对特定预测任务的输出。

编码器将异构输入数据转换为标准化的3D潜在表示。它将大气变量作为在规则经纬度网格上的 H×WH \times WH×W 图像处理,输入包含当前时刻 ttt 和前一时刻 t1t-1t1 的数据,形成每个变量的 T×H×WT \times H \times WT×H×W 张量。静态变量(如地形、陆海掩膜、土壤类型)作为额外的表层变量整合。输入图像被划分为 P×PP \times PP×P 块,通过变量特定的线性变换映射为维度 DDD 的嵌入向量。这些嵌入进一步附加压力层级(使用正弦/余弦编码表示大气层级,表面层级使用学习向量)和位置信息的加性编码。编码器通过Perceiver模块将物理气压层级 CCC 减少至固定的 L=3L=3L=3 个潜在气压层级,该模块利用交叉注意力机制聚合信息。最终得到的 HP×WP×L\frac{H}{P} \times \frac{W}{P} \times LPH×PW×L 嵌入集合,通过傅里叶编码增强块位置、块面积和绝对时间信息,使模型可在不同分辨率下运行并捕捉时间动态。

模型骨干为3D Swin Transformer U-Net,作为潜在表示随时间演化的神经模拟器。该架构具有对称的上采样-下采样结构,包含三个阶段,支持大气动力学的多尺度处理。每个阶段由多个3D Swin Transformer层组成,这些层在固定大小窗口内执行局部自注意力操作,模拟数值积分方法中的局部计算。每隔一层应用窗口移位,以在相邻区域间传播信息,从而适应地球球面拓扑。骨干网络共包含48层,分布在三个阶段,嵌入维度在每层块合并后翻倍,在每层块拆分后减半。该设计在多尺度上高效模拟物理过程,同时通过res-post-norm层归一化保持训练稳定性,并避免限制输入分辨率的位置偏差。

解码器逆转编码器的操作,将骨干网络的输出还原为原始空间与变量空间。它使用Perceiver层将潜在气压层级解聚合至任意目标气压层级,查询基于输出层级压力的正弦/余弦嵌入生成。潜在表层直接解码。解码器随后通过变量特定的线性层将输出变量重构为 P×PP \times PP×P 块,这些层动态构建,使用与各变量关联的权重。该过程使模型能够生成任意气压层级和任意变量集合的预测。

模型训练分为两个阶段:预训练与微调。在预训练阶段,Aurora通过最小化混合预报、分析数据、再分析数据和气候模拟数据的下一时间步(6小时预报)平均绝对误差(MAE),学习地球系统动力学的通用表征。该阶段利用海量数据和大量计算资源,在32块A100 GPU上训练约两周。预训练目标为表面与大气损失的加权和,采用数据集特定权重以反映数据保真度。模型性能通过扩大预训练数据量和模型规模持续提升,随着更多数据集的加入,验证性能系统性提升,且每模型规模增加10倍,性能提升约6%。微调阶段则使用更少数据和计算成本,将预训练模型适配至新任务、新数据集和新变量。对于特定应用(如空气污染或波浪预报),模型通过修改架构、输入处理和训练目标,进一步优化以更好地捕捉目标变量的独特特征。

实验

  • 主要实验:在多样化数据集上进行预训练(C4配置),使用LoRA进行部署微调,以及高分辨率(0.1°)建模。
  • 核心结果:在2022年HRES-T0 0.25°分辨率下,Aurora优于GraphCast(94%目标)和Pangu-Weather,上层大气RMSE最高降低40%;在0.1°分辨率下,Aurora在中β尺度过程的R²比0.25°重采样预测高出5.4%;在气象站数据上,Aurora在风速预测上优于IFS HRES,最长可达10天;在极端事件中,Aurora相比仅基于ERA5预训练的模型,阈值RMSE最高降低35%;在CAMS和HRES-WAM任务中,Aurora在76%和85%的目标上达到或超过业务模型表现。

作者采用多阶段训练策略训练Aurora,从多样化数据集预训练开始,再针对特定任务进行微调。结果表明,Aurora在大多数变量和预报时效下,始终优于GraphCast和Pangu-Weather,尤其在上层大气中提升最为显著。

作者在多个大气变量和气压层级上比较了Aurora、GraphCast和Pangu-Weather在0.25°分辨率下的性能。结果显示,Aurora在所有情况下均持续优于GraphCast和Pangu-Weather,其中上层大气的改进最为显著,Aurora相比GraphCast将RMSE降低高达40%。Aurora在预测极端天气事件方面也表现出色,尤其在风速和温度等表面变量分布尾部表现更优。

作者使用一系列折线图比较了Aurora在0.1°分辨率下与IFS HRES在0.1°分辨率下的性能,涵盖多种大气变量和气压层级。上排图表显示了2T、10U、MSL和U 500 hPa等变量的均方根误差(RMSE),Aurora的误差在所有预报时效下均持续低于IFS HRES。下排图表显示了归一化RMSE,即两模型RMSE差异相对于IFS HRES RMSE的比值,表明Aurora性能显著更优,尤其在长预报时效下。结果表明,Aurora在大多数变量和气压层级上优于IFS HRES,上层大气的改进最为明显。

作者使用一系列热图比较了Aurora预测结果与IFS HRES分析在不同大气变量、气压层级和预报时效下的相对均方根误差(RMSE)。结果显示,Aurora的性能随变量和气压层级变化显著,其中在上层大气中对U、V和Z等变量的误差降低最多,最高达10%。对于表面变量如2T和MSL,Aurora在短预报时效下误差普遍小于IFS HRES,但在长预报时效下趋于相当或略差。特定湿度(Q)的性能在所有预报时效和气压层级下均表现不佳,表明该变量仍是模型的持续挑战。

作者在0.25°分辨率下比较了Aurora与GraphCast在多个大气变量和气压层级上的表现,采用异常相关系数(ACC)和归一化ACC指标。结果显示,Aurora在大多数变量和预报时效下持续优于GraphCast,尤其在上层大气中,Aurora将ACC误差降低高达40%。在长预报时效(尤其超过三天)下,性能差距进一步扩大,且在温度、位势高度和风分量等变量的短时效预报中,Aurora也优于GraphCast。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供