Command Palette
Search for a command to run...
结合注意力与上下文匹配机制的卷积LSTM数值天气预报
结合注意力与上下文匹配机制的卷积LSTM数值天气预报
Selim F. Tekin Arda Fazla Suleyman S. Kozat
使用 LSTM 网络进行天气预报
摘要
使用高分辨率物理模型进行数值天气预报通常需要超级计算机上大量的计算资源,这限制了其在大多数实际应用场景中的广泛使用。作为替代方案,应用深度学习方法已为该领域揭示了创新的解决方案。为此,我们提出了一种用于预测高分辨率时空天气数据的新型深度学习架构。我们的方法通过整合卷积长短期记忆网络(Convolutional Long-short Term Memory, ConvLSTM)和卷积神经网络(Convolutional Neural Networks, CNN),扩展了传统的编码器-解码器结构。此外,我们将注意力机制和上下文匹配机制集成到模型架构中。我们的Weather Model在性能上显著优于基线深度学习模型,包括ConvLSTM、TrajGRU和U-Net。我们的实验评估使用了大规模的真实世界基准数值天气数据集,即ERA5压力层小时级数据集和WeatherBench。结果表明,通过关注输入序列的不同部分以建模大气环流的注意力矩阵,我们在识别空间和时间相关性方面取得了显著改进。我们还使用基准指标将我们的模型与高分辨率物理模型进行了比较,证明我们的Weather Model既准确又易于解释。
一句话总结
作者提出了一种气象模型,该模型融合了卷积长短期记忆网络、卷积神经网络、注意力机制和上下文匹配器,用于预测高分辨率时空气象数据。该模型通过利用注意力矩阵对大气环流进行建模,在ERA5小时级压力层和WeatherBench数据集上超越了ConvLSTM、TrajGRU和U-Net等基线模型,同时达到了与高分辨率物理模型相当的预测精度。
核心贡献
- 本文提出了一种用于高分辨率时空气象预测的新型深度学习架构,该架构通过融合卷积长短期记忆网络与卷积神经网络,对传统的编码器-解码器框架进行了扩展。
- 该模型引入了注意力机制与上下文匹配器,以显式捕捉大气环流特征,使网络能够聚焦于不同的输入区域,从而识别复杂的时空相关性。
- 在ERA5小时级压力层数据集和WeatherBench上的评估表明,该模型在ConvLSTM、TrajGRU和U-Net等基线模型之上实现了显著的性能提升,同时在保持更高可解释性的前提下,达到了与高分辨率物理模型相当的精度。
引言
高分辨率数值天气预报传统上依赖于计算密集型物理模型,这些模型需要超级计算资源,严重限制了其在时间敏感型实际应用中的部署。尽管深度学习已成为一种更快的替代方案,但传统架构往往难以准确捕捉大气数据中固有的复杂时空依赖关系。作者利用一种新型编码器-解码器框架,将卷积长短期记忆网络与卷积神经网络相融合,以突破上述瓶颈。通过嵌入注意力机制与上下文匹配器,该模型能够动态隔离关键输入区域,从而更准确地模拟大气环流。在ERA5和WeatherBench等大型基准数据集上的评估表明,该架构在标准基线模型之上提供了更优的预测精度,同时满足了实际预报工作流对可解释性与计算效率的要求。
数据集
- 数据集构成与来源: 研究使用了两个主要的气象数据集:ERA5小时级压力层数据和WeatherBench基准数据集。
- 子集详情与空间过滤: ERA5子集在空间上裁剪至覆盖土耳其的地中海与黑海沿岸区域,具体范围为纬度30°至45°,经度20°至50°。时间跨度为2000年至2001年,空间分辨率为30公里,时间分辨率为3小时,在100 hPa压力层上采用61乘121的网格。WeatherBench子集在850 hPa层上运行,采用32乘64的网格,时间分辨率为小时级。
- 特征选择与处理: 对于两个数据集,研究均将温度指定为内生目标变量,而将所有其余气象特征视为外生输入。该配置支持ERA5的下一步温度预测,以及WeatherBench在3至5天预报时效内的直接预测或迭代预测。
- 数据划分与模型使用: ERA5数据集按80%、10%和10%的比例划分为训练集、验证集和测试集。对于WeatherBench,研究使用2015年至2016年底的数据进行训练与验证,并保留2017年至2018年的数据用于测试。研究将这些精心整理的划分与明确的特征映射直接应用于其预报流程中,未进行额外的元数据构建。
方法
研究采用了一种用于数值天气预报(NWP)的新型深度学习架构,称为气象模型(WM)。该模型通过注意力机制融合多种时空数据源,并采用卷积长短期记忆(ConvLSTM)单元作为核心构建模块。整体框架遵循编码器-解码器结构,旨在捕捉气象数据中的时空相关性,从而实现准确的长期预测。模型架构如图1所示。
如下图所示,该模型处理一段时空输入数据序列,其中每个输入 Xt 为时间步 t 的气象特征张量。模型的主要组件包括编码器、解码器、注意力机制和上下文匹配器。由堆叠的ConvLSTM单元组成的编码器处理输入序列,生成封装相关时空信息的隐藏状态。在每个时间步应用的注意力机制根据前一时刻的编码器隐藏状态对输入特征进行选择性加权,使模型能够聚焦于最相关的网格单元与特征。该注意力机制通过卷积运算为每个输入特征计算能量矩阵,随后通过softmax函数将其转换为注意力权重。这些权重用于生成加权输入序列,并输入至编码器中。
解码器同样由堆叠的ConvLSTM单元构建,以递归方式生成输出序列。为解决长期依赖问题并扩展梯度流,研究引入了上下文匹配器机制。该机制聚合编码器各层在所有时间步的隐藏状态,沿时间维度求和,为每一层生成上下文向量。上下文匹配器在将这些求和后的状态传递至解码器之前,会反转其层级顺序。随后,解码器利用这些上下文状态与前一时刻的输出,生成后续时间步的预测结果。最终输出通过对解码器的隐藏状态应用卷积层获得,从而得到预测的气象数值。这种递归生成过程使模型能够预测任意长度的序列,为预测时效提供了灵活性。
实验
评估设置采用纬度加权指标,在高分辨率与标准数据集上,使用顺序预测、迭代预测和直接预测策略,对提出的气象模型与成熟的深度学习及物理基线模型进行基准测试。实验结果验证了基于卷积的架构对于追踪空间天气模式至关重要,同时迭代预测策略成功将基准方法中观察到的指数级误差增长替换为更稳定的对数级轨迹。尽管该模型展现出强大的短期预测能力,并有效利用注意力机制优先处理动态输入特征,但物理模型凭借其全面的大气模拟能力,在长期预报中仍保持更高的精度。最终,研究证实这种新型注意力增强架构显著提升了时空预报效率,尤其在空间连续性得以保持的较短预测窗口内效果更为突出。
研究采用多种预测方法与数据集,将气象模型与各类基线模型进行对比,并在不同指标上评估其性能。结果表明,气象模型在特定设置下优于多种深度学习模型,尤其是在迭代预测方面;而物理模型在长期预报中表现更优。该模型的有效性受数据中空间移动特征的影响,其误差增长呈对数级,与部分基线模型的指数级增长形成对比。在迭代预测方法上,气象模型的性能优于多个深度学习基线模型。在长期预报中,物理模型的表现全面优于所有深度学习模型,这表明数据驱动方法在延长预测时效方面存在局限。气象模型的误差增长为对数级,与部分基线方法观察到的指数级误差增长截然不同。
研究在高分辨率数据集上采用纬度加权RMSE、MAE和MAPE指标,将气象模型与多个基线模型进行对比评估。结果表明,气象模型在所有基线模型中表现最佳,且在各项指标上均取得最优成绩。与现有深度学习方案相比,该模型在较长预报期内的误差增长控制方面展现出显著改进。与基线模型相比,气象模型在所有评估指标上均取得最佳性能。在RMSE和MAE两项指标上,气象模型均优于ConvLSTM、TrajGRU、SMA和LSTM。在高分辨率数据集上,气象模型相较于其他深度学习模型表现出更优的性能,且提升具有统计学显著性。
研究在多种数据集与预测方法上,将气象模型与多个深度学习及物理基线模型进行对比评估,以检验其预报精度与误差动态。结果表明,该模型在迭代预测与高分辨率场景中始终超越深度学习方案,这主要得益于其误差增长呈对数级,而竞争对手则呈现指数级恶化。然而,物理模型在长期预报中仍保持明显优势,凸显了纯数据驱动架构在长时效预测方面的当前局限。总体而言,实验表明,尽管所提框架在短程预测与空间建模方面带来了显著的质量提升,但混合策略或物理信息引导的方法对于维持长期预报的稳定性仍不可或缺。