击败全球 No.1 系统、覆盖 80+ 国家,谷歌洪水预测模型再登 Nature

特色图像

《尚书·尧典》中记载:「汤汤洪水方割,荡荡怀山襄陵,浩浩滔天,下民其咨。」尧舜时代,洪水泛滥让百姓苦不堪言,尧舜决定找人治理洪水,鲧最初受命但未成功,后大禹继承父业再度治水,于是就有了「大禹治水十三载,三过家门而不入」的传说。
2023 年 7 月,一场由台风「杜苏芮」引发的罕见特大暴雨袭击北京市,大清河流域出现破纪录的洪峰流量。据人民网报道,本次洪涝灾害造成北京超 129 万人受灾,房屋倒塌超 5.9 万间、严重损坏超 14.7 万间,农作物受灾面积达 22.5 万多亩。

图源:中国新闻社

从古至今,人类在面对洪水这样的自然灾害时,往往处于弱势地位。谷歌研究科学家 Grey Nearing 曾在其论文中表明,一个有效的洪水预报系统能够将相关死亡人数减少 43%,经济损失降低 35%-50% 。可见,建立洪水预报系统是人类应对洪水灾害的一种重要手段。
当前的全球洪水预报系统大多依赖沿河设立的观测站,受限于部署成本,低收入和中等收入国家的流量计安装量往往较低,导致该类国家在洪灾来临时难以提前做好应对措施。据 World Bank 估计,若将发展中国家的洪水预报系统提升至发达国家水平,每年将有望拯救约 2.3 万人的生命。针对无测站流域建立洪水预报系统已迫在眉睫。
幸运的是,随着科技的发展,人工智能 (AI) 在洪水领域的应用为无测站流域的洪水防御带来了希望。来自 Google Research 的 Grey Nearing 及其团队开发了一个基于机器学习的河流预报模型 (river forecast model),该模型能够提前 5 天实现对洪水的可靠预测,在对 5 年一遇的洪水事件进行预测时,性能优于或相当于目前预测 1 年一遇的洪水事件,系统可覆盖 80 多个国家。
研究亮点:
* 河流预报模型的预测能力优于目前全球最先进洪水预报系统 GloFAS

* 为未测量流域的洪水预警提供更好的支持

论文地址:
https://www.nature.com/articles/s41586-024-07145-1
数据集下载地址:
https://hyper.ai/datasets/30647
关注公众号,后台回复「洪水预报系统」获取完整 PDF

数据集:来自 5,680 个流域

该研究的完整数据集包括来自 5,680 个流域的模型输入和(径流)目标值,研究人员基于这 5,680 个流量监测站进行模型的训练和测试。

用于训练模型的 5,680 径流监测站位置

本研究使用 3 种类型的公开数据作为输入,主要来源于政府:
* 代表地理和地球物理变量的静态流域数据:来自 HydroATLAS project,包括长期气候指标(降水、温度、雪覆盖率)、土地覆盖以及人为属性等。
* 历史气象时间序列数据:来自 NASA IMERG, NOAA CPC Global Unified Gauge-Based Analysis of Daily Precipitation 和 ECMWF ERA5-land reanalysis 。变量包括每日总降水量、气温、热辐射、降雪量和地表压力等。
* 七天预报范围内预测气象的时间序列数据:这些数据来自 ECMWF HRES atmospheric model,气象变量与上述相同。

模型架构:基于 LSTM 构建河流预报模型

基于 LSTM 的河流预报模型架构

该研究依次利用两个应用的长短期记忆网络 (LSTM) 构建河流预报模型,其核心是编码器-解码器机制 (encoder–decoder model) 。其中 Hindcast LSTM 接收历史天气数据,Forecast LSTM 接收预报天气数据,模型的输出是每个预测时间步的概率分布参数,它代表了对特定河流在特定时间容积流量的概率预测。
此外,研究人员在 50,000 个小批量 (minibatches) 上对该模型进行训练,所有输入数据预先进行了标准化处理。为增强模型的学习能力,研究人员为编码器 (encoder) 和解码器 (decoder) LSTM 设置了单元状态 (cell state) 为 256 的隐藏层节点数 (hidden size),以及 linear-cell-state transfer network 和 nonlinear hidden-state transfer network 。

模型优化:交叉验证减少预测误差

研究人员采用交叉验证在 5,680 个流量计上训练并在样本外测试河流预报模型,确保模型的泛化能力得到有效评估,提高预测可靠性。
首先,在时间维度上,设计交叉验证折叠,任何监测站在一年内的测试数据都不得与其所使用的训练数据重叠。在空间维度上,采用 k 折交叉验证 (k = 10),将数据在空间维度上均匀分割。重复执行这两个交叉验证过程,避免训练和测试之间的数据泄露。
其次,为进一步考察模型在不同地理区域和环境条件下的表现,研究人员还进行了更多类型的交叉验证实验,包括但不限于:按照各大洲 (k = 6) 、不同气候带 (k = 13) 、水文分离的流域群体 (k = 8) 等进行非随机空间分割。* k 折交叉验证:将数据集分成 k 个子集,其中 1 个子集用于验证,剩余 k-1 个子集用于训练。重复 k 次交叉验证,每个子集验证 1 次,平均 k 次的结果得到模型的最终评估。

实验结论:性能优于全球现有最先进的洪水预报系统

为了评估洪水事件预测的可靠性,研究人员将河流预报模型与全球现有最先进的洪水预报系统 GloFAS (Global Flood Awareness System) 进行对比分析。

河流预报模型与 GloFAS 模型在即时预测下
预测 2 年重现期事件的 F1 scores 得分差异

* 红色表示差异值在 -0.2-0 之间

* 绿色表示差异值在 0-0.2 之间
第一,研究人员分析了 1984 年-2021 年间,河流预报模型与 GloFAS 模型在即时预测下,预测 2 年重现期事件的 F1 scores 得分差异分布。
结果表明,河流预报模型在 70% 监测站(共计 3,673 个)上的表现优于 GloFAS 模型。

即时预测下
不同重现期事件的精确度和召回率分布情况

* 蓝色虚线为参照基准线

* N 为监测站的数量
第二,研究人员分析了即时预测下,不同重现期事件的精确度和召回率分布情况。
结果表明,河流预报模型在预测所有的重现期事件中表现出更高的可靠性。对于预测极端事件的精确度,河流预报模型在 5 年重现期上与 GloFAS 在 1 年重现期上无显著差异,而召回率高于 GloFAS 。这说明,河流预报模型预测 5 年重现期事件的准确性优于或相当于 GloFAS 预测 1 年重现期事件的准确性,即其预测更长重现期洪水事件的可靠性优于目前最先进模型预测 1 年重现期洪水事件。* 重现期:某个洪峰流量是多少年一遇,其中的多少年就是重现期。重现期越长,洪水的量级越大,重现期越短,洪水就越小。

提前 0-7 天预测时,不同重现期事件的 F1 scores 分布
蓝色虚线为参照基准线

第三,研究人员分析了提前 0-7 天预测时,不同重现期事件的 F1 scores 分布。
结果表明,对于预测 1 年 (a) 、 2 年 (b) 、 5 年 (c) 和 10 年 (d) 重现期事件,河流预报模型在最多提前 5 天的情况下,其 F1 scores 要么高于 GloFAS 的即时预测,要么无显著差异。这说明,河流预报模型在提前 5 天的时间内,洪水预报能力优于或相当 GloFAS 。

不同地理位置和重现期的 F1 scores

第四,研究人员分析了 F1 scores 在预测不同地理位置和重现期事件时的分布情况。
结果表明,这两种模型在不同地理位置的可靠性存在显著差异。此外,在预测 1 年 (a) 、 2 年 (b) 、 5 年 (c) 和 10 年 (d) 重现期事件中,河流预报模型在不同地理位置上的 F1 scores 与 GloFAS 相比均较高或无显著差异。

从欧洲 EFAS  到中国新安江模型,AI 已成智能防线

其实早在 2021 年,谷歌在「Inventors@Google」活动上展示其 AI 技术的研究成果时,便已经提到了基于机器学习的洪水预报系统 Google Flood Hub,当时该系统主要适用于印度,是通过可视化的方式让当地人民了解洪水情况。经过三年的发展,谷歌的最新洪水预报系统已经可以扩展到其他无测站流域地区,覆盖超过 80 个国家。
与之类似的还有欧洲洪水感知系统 (EFAS),该系统利用先进的气象预报和水文学模型,结合机器学习算法,至少提前十天对整个欧洲进行可靠的洪水预测,并向成员国的国家及地方洪水中心发送正确的早期预警。
此外,作为洪水频发的国家之一,我国约有 2/3 的国土存在不同程度的洪水风险。据统计,1991 年至 2020 年间,我国因洪涝灾害导致的年均死亡或失踪人口超 2 千,累计死亡人数超 6 万,年均直接经济损失约 1,604 亿元。

图源:中国地图

面对洪水危害,我国自主研发的新安江模型,基于长期实践积累和对水文规律的深入学习,将全流域划分为多个单元子流域,并考虑地形、土壤、植被等因素对水文过程的影响,提供准确的水文预测结果,被广泛应用于防洪减灾等。
事实上,人类从未停止探索更加有效的洪水防御措施,尽管无法从根本上消除洪灾,但通过先进的洪水预报系统,提前预知灾害并采取措施,可以很大限度减少洪灾对人类社会的负面影响。如今,基于 AI 技术构建的洪水预报系统已不再局限于某个特定区域,或许也将在未来覆盖全球,保护更多市民免于洪水危害。

参考资料:
1.
http://bj.people.com.cn/n2/2023/0809/c14540-40525241.html
2.https://www.sohu.com/a/766008856_473283
3. https://www.sohu.com/a/745381603_121687414
4.https://european-flood.emergency.copernicus.eu/en/european-flood-awareness-system-efas
5.https://developer.baidu.com/article/details/3096974
6.https://blog.research.google/2024/03/using-ai-to-expand-global-access-to.html
7.https://m.jiemian.com/article/6809946.html