地球科学作为一个高度跨学科的领域,正在经历一场由 AI 引领的重大变革。通过在海量地球科学数据中挖掘潜在信息、发现隐匿模式等,AI 不仅可以深化人们对地球自然现象的理解,还能优化研究人员对地球科学不同因素之间时空非线性关系的建模与预测,推动新研究范式的形成。
近日,在 HyperAI 超神经联合出品的 COSCon’24 AI for Science 论坛中,来自浙江大学地球科学学院的专聘研究员戚劲以「GeoAI 及其跨学科地学应用」为题,向大家分享了传统地理学建模的局限、以及 AI 赋能传统方法对房价分析、海洋遥感、大气污染、成矿预测等领域的影响。
HyperAI 超神经在不违原意的前提下,对戚劲老师的深度分享进行了整理汇总,以下为演讲实录。
随着观测技术的不断进步,地球科学领域的时空数据呈现爆炸式增长。这些数据可被广泛应用于海洋环境建模、房价成因分析、矿产空间分布勘探以及 PM2.5 空气污染模拟等科学研究。
过去,我们通过传统的地理加权回归 (GWR) 模型分析地理位置对变量间关系的影响,以分析或预测目标对象的空间异质性变化。然而,不同数据之间存在复杂的相互作用,如何构建更精细的模型结构和更多尺度的建模对象,成为了一个重要的挑战。
为了适应人工智能和大数据的发展,应对现实世界中的复杂建模问题,我们将传统地理加权回归的理念与神经网络技术相结合,提出了一类新的模型,包括地理神经网络加权回归 (GNNWR) 、地理时空神经网络加权回归 (GTNNWR) 等。
自第一篇论文发表以来,GNNWR 、 GTNNWR 等系列方法备受关注,并在海洋学、地理学、大气科学和地质学等多个方向得到了广泛应用,累积发表相关论文超 30 篇,这些成果不仅限于我们团队内部发表的方法类研究和应用型研究,还有许多外部团队利用类似的建模思想或技术架构开展研究。目前 GNNWR 已在 GitHub 上开源,还支持直接调用 pip install gnnwr (Python≥3.9) 。
GNNWR 开源地址:
https://github.com/zjuwss/gnnwr
以房价分析为例,众所周知,房价受地理位置的影响显著,旅游景点、学区位置等都直接影响房价高低,而地理学就是通过统计分析,揭示哪些因素可以影响房价。与传统的回归模型相比,GNNWR 模型不仅具有更高的拟合精度,还具备更强的可解释性,能够深入揭示房价影响因子的作用机制及其空间差异。本研究的具体内容将在后面详细介绍。
论文原文:
https://www.mdpi.com/2220-9964/11/8/450
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
在海洋生态环境建模方面,遥感卫星从太空获取的海洋图像中含有丰富的波段信息,根据这些波段信息在空间上的不同分布,我们可以分析出叶绿素、悬浮泥沙等海洋生态要素的含量。
近年来,海洋中的一种重要营养物质——硅酸盐,也可以通过 GTNNWR 模型进行时空分布估算。硅酸盐的减少会导致沿海赤潮的发生,使用 GTNNWR 模型可以获得近岸海域溶解硅酸盐的细尺度时空动态变化,进而为近海赤潮的发生提供遥感预警信号。本研究的具体内容将在后面详细讲述。
再比如 PM2.5 污染,北方的一些重工业城市可能是污染的主要源头。 GNNWR 模型能够建立空间非平稳的回归关系,估算 PM2.5 浓度,提供全国范围内高精度、细节合理的 PM2.5 分布情况。例如,通过地理空间建模我们发现,从北京到连云港,PM2.5 浓度普遍较高,这可能是受风向、风速等因素的影响,此外,特定区域内的防护林可能会抑制 PM2.5 的扩散。
论文原文:
https://www.mdpi.com/2072-4292/13/10/1979
在地质学领域,特别是在金矿空间分布预测方面,我们开展了一系列研究,揭示了地质因素对金矿形成概率的影响。在构建的模型中,我们引入了 Shapley 方法,以增强模型的可解释性,实现了对复杂空间环境下矿化的精确预测和解释。
更多详细内容:优于五大先进模型,浙江大学杜震洪团队提出 GNNWLR 模型:提升成矿预测准确性
在传统统计学范畴内,想要探究 PM2.5 浓度受哪些因素影响,一般用多元线性回归分析,即 x 表示自变量,y 表示因变量,探究 y 与 x 之间的关系。然而,在地理学研究领域,考虑到空间位置导致的变量间关系差异,传统统计方法难以对此类复杂的自然现象进行建模。
以汉堡价格为例,设 y 为汉堡价格,北京的汉堡售价为 25 元,杭州则为 15 元。如果用简单的线性建模,从地理位置来看,江苏位于北京与杭州之间,则可能会预测江苏的汉堡价格为 20 元。然而,地理要素并不是这么简单的线性关系,汉堡价格还会受到物流成本、交通条件及原材料成本等多重因素的影响,这些因素在空间上的分布各不相同,这意味着建模时应该考虑各因素在不同地理空间位置的权重。
为进一步解决地理关系建模的问题,地理学家将传统的多元线性回归扩展至地理加权回归 (GWR) 。在 GWR 中,每个自变量前的回归系数 β 被赋予了随地理位置变化的特性,即每个回归系数的权重随空间位置的变化而变化,这种变化就是我们常说的「空间非平稳性」,意味着自变量与因变量之间的关系并非是一个稳定的线性关系,而是高低起伏的。
如何计算地理加权回归系数?其核心包括 2 点,第一是要计算一个准确的空间距离,第二是要在众多核函数中选择一个最准的拟合函数。
在空间距离计算方面,除了欧氏距离外,还存在曼哈顿距离计算等。假设杭州至南京有 200 公里,北京至南京也为 200 公里,若依据欧氏距离计算,两地间直线距离可通过勾股定理求得。但在实际应用中,大连和烟台乘船可能只需 100 公里左右,乘坐高铁则需绕行较远的路程,实际距离可能超过 300 公里。因此在地理空间建模中,距离计算方法的选择至关重要。
其次,我们引入了「核函数」的概念,并绘制了核函数小山丘图形,如下图所示,距离分析点(红色点)越远的位置,权重越低,但这种关系并非简单的递减关系,而是随着空间距离产生波动的。地理学家们建模的时候,权重核函数的选择有很多种,比如高斯函数、指数函数等。
总结来说,空间距离度量的不确定性,以及选择哪种核函数才能最佳拟合数据,是影响地理学建模准确性的主要问题。
复杂非线性是现实世界不同因素间固有的特征,机器学习与神经网络就是为了解决这类问题而生。
在地理建模领域,两点之间的空间距离往往是非线性的,核函数所描述的权重也是非线性变化的,因此,我们将传统地理加权回归 (GWR) 理念与神经网络技术结合,提出了一类新的方法模型,包括地理神经网络加权回归 (GNNWR) 、地理时空神经网络加权回归 (GTNNWR) 等。
相关论文:
https://www.tandfonline.com/doi/full/10.1080/13658816.2019.1707834
https://www.tandfonline.com/doi/full/10.1080/13658816.2020.1775836
https://www.tandfonline.com/doi/full/10.1080/13658816.2022.2100892
该方法具备两大特征:首先,构建一个专门用于计算空间距离的神经网络,无论其实际距离为 100 公里还是 300 公里,神经网络能够通过大数据确定两点间最适宜建模的距离。其次,该方法设计了一个时空权重网络,即空间加权神经网络,负责根据输入的空间距离计算输出的权重值。在此过程中,我们无需提前确定使用哪个核函数,而是由神经网络自行学习数据特征,并据此自动构建地理权重。通过上述两种神经网络的嵌套应用,最终实现对应变量 y 的准确预测。
与传统方法不同,GNNWR 能够把自变量前面的系数 β 精确计算出来,为了更直观地展示,我们将回归系数 β 进行可视化处理,如下图所示,β0 的权重分布为橙色菱形,β1 展现了一种上下权重高、中间权重低的独特分布模式,而 β2 则呈现为中心圆形分布。
如下图所示,结合了神经网络的 GWR 在训练集与测试集上的精度均有显著提升。
房价不仅与工作单位关联,还需考虑交通、学区、环境等因素。在房价建模上,我们以武汉房价为例,采集了近 1,000 套二手房交易记录的数据,按 85:15 的比例划分为训练集和测试集。选择二手房是因为它受政策调控影响较小,更贴近真实的经济流动效果。
在研究过程中,我们遵循常规的神经网络建模流程,划分了测试集与训练集,并收集了一系列可能影响房价的变量。本案例的特色在于引入了新的「空间距离」概念,除了传统的欧氏距离外,我们还提出了基于实际交通情况的「通勤距离」。通过建立一种距离融合函数,我们将通勤距离与欧氏距离一同输入神经网络中,以此确定两者融合后的非线性距离。
模型的整体架构未作大幅改动,也是输入相应的每个要素权重 w,输出最终的房价 y 。通过对比实验,我们证明,当同时考虑欧氏距离与通勤距离时,模型性能比传统建模提高 12%,高于单个距离分别输入神经网络时的提升值。
研究还揭示了武汉市房价与大学城、科研院所、科技公司及旅游景点分布之间的关联,此外,所提出的模型对于远离市中心区域的房价预测效果尤为突出。具体而言,随着与市中心距离的增加,模型的预测准确性也随之提高。这表明,在城市边缘地区,特殊距离测量方法能更精确地捕捉房价变动规律。
在海洋生态环境建模方面,以长江三峡大坝为例,大坝会拦截泥沙,使水体变得更加清澈,但同时也阻隔了进入海洋中的一种重要营养物质——硅酸盐,硅酸盐的减少会导致沿海有毒有害赤潮的比例增大。传统研究方法通过绘制等值线图,粗略估计营养物质的流动趋势。然而,在新时代背景下,如何利用高时空分辨率的遥感卫星图像来探索营养物质的分布成为了一个新课题。对此,我们提出了基于 GeoAI 的非线性建模思路,希望发挥大数据的优势,实现海洋营养物质的分析等。
本研究采用了团队自主研发的 GNNWR 方法,该方法的特点如下图所示。此外,我们还在其中进行了数据集匹配、遥感时空估算、缺失数据补全等操作。
研究过程中,我们与浙江省海洋监测管理部门合作,利用其发布的监测数据,结合 Google Earth Engine Map 这一著名 API 下载所需的遥感影像,然后定义它的时间、空间位置及分辨率,并按照标准流程划分为训练集、测试集和验证集,实施了 10 折交叉验证,选取了最优且最稳定的结果进行建模。
通过建模,我们绘制出了浙江海洋近 9 年每日硅酸盐的时空分布变化图。观察发现,每年 8 月,由于海洋生物和植物活动频繁,硅酸盐含量呈现低值。而到了 9 月和 10 月,由于长江水流向浙江近岸海域,导致该区域营养物质含量显著增加。
如下图所示,蓝色曲线是硅酸盐含量、橙色曲线是长江水流向和流速,我们可以看到,硅酸盐含量与长江水流经浙江方向上的分布存在显著相关性,皮尔逊系数达到 0.462,证明了每年秋冬季节长江水对浙江海域的影响更为明显。
此外,我们还利用高时空分辨率数据,分析了海洋生物活性的变化。研究发现,在浙江近岸海域发生赤潮期间,相关曲线在两周内出现了两次下降,这表明,AI 方法不仅能提高模型精度,还能揭示时空上的细微变化,或可为硅藻藻华的实时监测和预警提供重要信号。
关于沿海台风的影响,我们注意到,在台风到达海洋当天,营养物质含量出现峰值,3 天后回落至原本水平。这一现象归因于台风引起的次表层海水扰动,导致海底营养物质从深部被带到海面,但台风过后,营养物质含量很快恢复原状,从数据驱动角度印证了传统海洋学研究中推断的机制。
综上所述,本研究为近海赤潮的预警提供了预测信号,并验证了台风对海洋时空变化的影响。团队已在海洋领域发表了一系列论文,探讨海洋水质时空分布的变化,未来可能会形成新的研究方向持续进行下去。
本次参与分享的嘉宾戚劲老师来自浙江大学地球科学学院,研究方向为人工智能海洋学、地学大数据分析平台研发。他主持了多项重要科研项目,包括「十四五」国家重点研发计划子课题、国家自然科学基金项目,曾担任浙江近岸海域生态环境多源信息智能服务平台的技术负责人,获海洋工程科学技术奖一等奖等。
戚劲个人主页:
https://person.zju.edu.cn/qijin
他所在的团队由杜震洪教授,吴森森教授带头,近年来在地学和信息学交叉等领域取得了系列成果,团队提出的 GNNWR 系列模型被行业人才广泛使用,模型的下载量、调用数和引用累计超万次。未来,团队致力于充分发展 GIS 理论与方法、地学智能分析平台技术,持续探索 GeoAI 发展。
GNNWR 课题组负责人吴森森研究员的个人主页及时空智能回归模型简介:
https://mypage.zju.edu.cn/wusensen/#977161
团队招收博士后及科研助理,欢迎有 GIS 、遥感、地理、海洋、地质、计算机科学与技术背景的研究人员加入,欢迎海外优青、各类高层次人才加盟!