
摘要
现代深度学习方法在气象学应用中展现出广阔前景,包括降水临近预报、合成雷达图像生成、锋面检测等多个领域。为了有效训练和验证这些复杂算法,亟需包含高分辨率影像的大规模、多样化数据集。目前,公开可获取的气象数据已达拍字节(petabyte)级别,例如地球静止环境卫星系统(GOES)和下一代雷达(NEXRAD)系统的数据;然而,这些数据集的庞大规模与复杂性,已成为深度模型开发与训练的主要障碍。为应对这一挑战,我们推出了风暴事件影像数据集(Storm EVent ImagRy, SEVIR)——一个统一、丰富的数据集,整合了来自多个传感器在空间与时间上对齐的数据,并配套提供了深度学习模型的基准实现与评估指标,旨在加速新型算法的创新进程。SEVIR是一个经过标注、精心筛选且时空对齐的数据集,包含超过10,000个天气事件,每个事件均包含连续4小时、空间分辨率为384 km × 384 km的图像序列。SEVIR中的图像在五种不同数据类型之间进行了采样与对齐:来自GOES-16先进基线成像仪的三个波段(C02、C09、C13)、NEXRAD垂直积分液态水含量拼接图,以及GOES-16地球静止闪电mapper(GLM)的闪电事件。SEVIR中的许多天气事件均经过筛选,并与美国国家海洋和大气管理局(NOAA)风暴事件数据库进行匹配,从而可将风暴影响、风暴描述等附加信息与传感器提供的丰富影像数据建立关联。本文详细阐述了数据采集方法,并通过两个深度学习在气象学中的应用实例,展示了该数据集的实际用途:降水临近预报与合成气象雷达图像生成。此外,我们还提出了一套可用于评估模型输出性能的量化指标。SEVIR数据集及所选应用的基准实现代码均已开放下载,供科研人员与开发者使用。