Command Palette

Search for a command to run...

全球水体健康诊断,香港科技大学团队提出时空插补与预测模型,实现沿海叶绿素 a 时空分布精准预测

Featured Image

来自陆地的营养输入和活跃的水动力学,使近海成为了世界上生产力极为丰富的海洋生态系统,同时也带来了严重的富营养化和缺氧等潜在风险,预测叶绿素 a(Chl_a)的时空分布则是诊断沿海生态系统健康状况的重要手段。

然而,现有的工具仍然不足以支持基于预测叶绿素 a 的时空分布的分析方法。其中,传统的水动力-生物地球化学耦合方法难以分析海洋生态系统中的营养转移,能量通量和生物量等因素难以纳入计算;数据驱动的预测方法则容易在非线性系统长期积分过程中积累误差。

在此背景下,香港科技大学的研究团队开发了一种人工智能驱动的时空插补和预测(STIMP)模型,用于预测沿海海洋的叶绿素 a 。 STIMP 模型通过集成专门设计的模块,解决了数据不完整、时间非平稳变化和空间异质性带来的难题,为预测时空限制条件下的海洋叶绿素 a 提供了全新范式。

相关研究成果以「Spatiotemporal Imputation and Prediction Model」为题,发表于 Nature Communications 。

研究亮点:

* 开发 STIMP 模型并提出「插补+预测」的二阶段架构,有效缓解高缺测率与时空模式丢失问题,并能量化预测不确定性;

* 集成时空去噪扩散模型(STDDM)、时间线性 Transformer(TLT)、异构空间图神经网络(HSGNN),解决数据不完整、非平稳时间变化和空间异质性三大挑战;

*在珠江口、长江口、墨西哥湾北部和切萨皮克湾 4 个典型区域完成实证, 验证了 STIMP 模型叶绿素 a 时空分布预测能力在全球范围内的有效性。

论文地址:

https://go.hyper.ai/BjOR5

关注公众号,后台回复「叶绿素沿海分布」获取完整 PDF

MODIS 叶绿素 a 实测数据集

该研究使用了香港近海海域的叶绿素 a 实测数据集和葵花卫星遥感反射率数据集,以构建三种不同深度的叶绿素 a 反演模型。研究使用的 MODIS Chl_a 数据已在中分辨率成像光谱仪(MODIS)Aqua 项目中公开发布,处理后的 MODIS Chl_a 数据可在 Zenodo 上获取。

Zenodo 网址:

https://doi.org/10.5281/zenodo.14638405

基于深度学习的 STIMP 方法

研究团队采用了基于深度学习的方法,将沿海海洋的叶绿素 a 观测值以及包含观测值地理坐标的空间图输入 STIMP 架构,以得到完整的叶绿素 a 数据集,从而准确估算和预测沿海海洋的叶绿素 a 。

全球代表性沿海地区叶绿素 a 观测信息

STIMP 模型的二阶段架构

STIMP 将叶绿素 a 的预测分解为插补和预测 2 个连续步骤。在插补过程中,该研究通过时空嵌入模块(Spatiotemporal Embedding Modules)同时捕捉空间结构与时间动态,从部分观测中重建多个潜在的完整时空叶绿素 a 分布;在预测步骤中, STIMP 将基于重建叶绿素 a 时空分布,使用鲁宾法则(Rubin’s rules),通过对多次插补和预测过程的结果取平均值来获得最终的叶绿素 a 预测值。

STIMP 模型二阶段架构概览

STIMP 模型三大核心集成模块

快速发展的卫星遥感观测为开发数据驱动的大规模时空叶绿素 a 预测方法提供了机遇,同时带来了数据不完整性、非平稳时间变化和空间异质性的挑战。对此,STIMP 模型设计了 3 个核心集成模块以实现叶绿素 a 的时空预测:

时空去噪扩散模型(Spatiotemporal Denoising Diffusion Model, STDDM):应用于插补函数,在插补阶段重建高缺失率下的完整时空分布。该模块将复杂任务分解为简单任务,通过逐步提升信噪比的方式实现从不完整观测到完整数据的转换;

*  时间线性 Transformer(Temporal Linear Transformer, TLT):用于捕捉非平稳的时间变化模式,通过自注意力机制计算整个时间序列的依赖关系,保留了叶绿素 a 动态变化的关键信息,从而对时间序列的所有元素进行计算,以便于理解叶绿素 a 的时间模式;

异构空间图神经网络(Heterogeneous Spatial Graph Neural Network, HSGNN):处理空间异质性问题,利用参数池生成位置特定的参数,从而保证不同地理环境下对区域差异的敏感性。

这 3 个集成模块在插补与预测阶段保证了 STIMP 模型在面对数据不完整、时间动态复杂和空间差异显著的情况下实现鲁棒的估算与预测。

STIMP 性能的有效性验证

STIMP 的时空插补性能

该研究以珠江口为例,证明了 STIMP 模型时空插补的有效性。研究人员选取了 2015 年 2 月 7 日至 2016 年 2 月 2 日珠江口全域的观测数据,并利用 STIMP 和包括数据插值经验正交函数(Data Interpolating Empirical Orthogonal Function, DINEOF)、掩码自编码器(MaskedAE)、线性插值(Lin-ITP)在内的基线方法,重建了叶绿素 a 分布数据。

实验显示,在珠江口缺测率平均达 50.29% 的情况下,STIMP 模型在一年期插补任务中将平均绝对误差(Mean Absolute Error,MAE)相较 DINEOF 降低了 45.90% 至 77.35%,和次优模型相比则进一步降低 10.20% 至 40.38% 。 STIMP 在插补过程中有效地保留了空间关系,不仅在靠近海岸线的地方产生了较大的值,而且在大多数地区产生了相似的值。即使缺失数据率高,STIMP 也能有效地重建完整的数据。

珠江口实测和估算的叶绿素 a 分布

此外,STIMP 在插补过程中有效地保留了时间关系。在对从 2015 年 2 月 7 日到 2022 年 9 月 22 日 5 个单一位置进行插补的过程中,与简单的线性插值相比,STIMP 包含了更多的波动。

在五个地点用 STIMP 估算的叶绿素 a

同时,该研究还验证了 STIMP 在全球沿海海洋的有效性。在长江口,STIMP 的 MAE 相比 DINEOF 降低 68.31% 至 90.92%,比次优 AI 方法降低 15.62% 至 42.67% 。在墨西哥湾北部,STIMP 相较 DINEOF 的 MAE 降低幅度为 69.42% 至 74.88%;在切萨皮克湾,STIMP 相比 DINEOF 的 MAE 降低幅度达到 62.08% 至 75.63% 。整体上,STIMP 能在不同缺测率条件下保持稳定表现,并在高缺失率下依然能重建真实的时空结构。

STIMP 的时空预测性能

研究人员还通过预测实验验证了 STIMP 的长期预测性能优势。 STIMP 1 年预测的平均绝对误差(MAE)较基线方法降低了 6.54% 至 13.68%, 2 年预测则降低了 13.68% 至 32.25%, 3 年预测降低了 13.77% 至 32.01%,优于其他预测方法。

STIMP 和基线模型在 1 年、 2 年和 3 年预测中的 MAE 表现

此外,填补数据后 STIMP 对分布的预测效果显著提高。在缺失数据率较高的地区,STIMP 的预测结果往往比 PredRNN 的预测结果改善更大,证明了预测前填补数据有助于 STIMP 有效捕捉叶绿素 a 的空间分布和季节性信号。

实际值与 PredRNN 、未进行插补的 STIMP 和 STIMP 预测值的 MAE
插补带来的性能提升与缺失数据率的关系

以珠江口为例,相较数值模式 CMOMS 和深度学习方法 PredRNN,STIMP 的预测 MAE 提升显著,在 1 年预测中较基线方法降低 6.54% 至 13.68%,2 年预测降低 13.68% 至 32.25%,3 年预测降低 13.77% 至 32.01% 。在个别位置点的对比中,STIMP 相比 CMOMS 的 MAE 改善幅度高达 53.78% 至 74.63%,相较 PredRNN 的提升也达 1.83% 至 30.28% 。

在长江口、墨西哥湾北部和切萨皮克湾,STIMP 的整体预测性能也相较于 PredRNN 方法表现出显著提升,并能更好保持数据的周期性。总体而言,STIMP 验证了其二阶段架构在处理不完整时空观测数据下的有效性和稳健性。

「AI+ 海洋」交叉研究与跨学科团队

香港科技大学杨灿、甘剑平团队成员在研究方向上横跨数学、统计学、人工智能与物理海洋学等多个领域。

其中,香港科技大学数学系教授、大数据生物智能实验室副主任杨灿致力于统计学习与人工智能方法论的创新研究,聚焦深度学习、生成模型和图神经网络等前沿方法在高维复杂数据建模与预测方面的应用,近年来将研究重心拓展到海洋科学与公共健康领域,积极推动「AI+海洋」交叉研究。此前,杨灿团队开发了 BOOST/GBOOST 加速 GWAS 分析工具,并提出 LEP 多表型风险预测方法,同时设计了 VGrow 生成框架,推动非欧美人群从基因数据到面貌特征的应用转化。

香港科技大学海洋科学系系主任兼讲座教授甘剑平长期致力于研究近海和陆架海洋的环流动力学,及其与生态系统的耦合过程,聚焦沿海生态健康、污染治理与区域气候可持续发展等研究领域。在物理海洋学领域,甘剑平团队研发了 WavyOcean 2.0 区域海洋数字孪生平台,能够融合海洋过程模拟、 GIS 、 BIM 和数字孪生技术,实现海洋—陆地—大气系统的三维耦合建模,支持海洋流动、生物地球化学演变、降水与污染扩散的动态可视化与交互分析,范围覆盖大湾区及中国沿海。该团队通过实地观测和模型模拟,首次揭示南海区域具有三层交替旋转(bi-layer alternately rotating)循环结构,纠正了以往海洋模型的结构偏差。

参考资料:

1.https://pubs.acs.org/doi/10.1021/cr300014x

一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️