複数分野の地球科学への応用: 浙江大学チームは、地理/海洋/地質学/大気分野における時空間モデリングと予測を支援する一連の GeoAI 手法を提案しました。

特色图像

地球科学は学際性の高い分野として、AIを中心に大きな変革を迎えています。 AI は、潜在的な情報をマイニングし、膨大な地球科学データに隠されたパターンを発見することで、地球の自然現象に対する人々の理解を深められるだけでなく、研究者によるさまざまな地球科学要素間の時空間的な非線形関係のモデリングと予測を最適化することもできます。研究パラダイム。

最近、HyperAI と HyperNeural が共同で開催した COSCon'24 AI for Science フォーラムで、浙江大学地球科学部の専任研究員 Qi Jin 氏は、「GeoAI とその学際的な地球科学への応用」というテーマ、従来の地理モデリングの限界、住宅価格分析や海洋リモートセンシングなどの従来の手法を AI がどのように強化するかについて共有しました。 、大気汚染、石化予測などの分野への影響。

チー・ジン先生のスピーチ

HyperAI は、当初の意図に違反することなく、Qi Jin 先生の詳細な共有内容を編集および要約しました。以下は講演の書き起こしです。

GeoAI の学際的な応用には、住宅価格分析、海洋リモート センシング、大気汚染、鉱化予測が含まれます。

観測技術の継続的な進歩に伴い、地球科学分野における時空間データは爆発的に増加しました。これらのデータは、海洋環境モデリング、住宅価格の原因分析、鉱物の空間分布探査、PM2.5大気汚染シミュレーションなどの科学研究に幅広く活用できます。

これまで、対象オブジェクトの空間的不均一性の変化を分析または予測するために、従来の地理的重み付け回帰 (GWR) モデルを通じて、変数間の関係に対する地理的位置の影響を分析しました。ただし、異なるデータ間には複雑な相互作用があり、より洗練されたモデル構造とより多くのスケールのモデリング オブジェクトを構築する方法が重要な課題となっています。

人工知能とビッグデータの発展に適応し、現実世界の複雑なモデリング問題に対処するために、従来の地理的加重回帰の概念とニューラル ネットワーク テクノロジーを組み合わせ、地理的ニューラル ネットワーク加重回帰 (GNNWR)、地理的時空間ニューラル ネットワーク加重回帰 (GTNNWR) などの新しいクラスのモデルを提案します。

最初の論文の発表以来、GNNWR や GTNNWR などの一連の手法は大きな注目を集め、海洋学、地理学、大気科学、地質学などのさまざまな分野で広く使用されており、合計 30 以上の関連論文が発表されています。これらの結果は、私たちのチーム内で発表された方法論的研究や応用研究に限定されるものではなく、多くの外部チームも同様のモデリングのアイデアや技術アーキテクチャを使用して研究を行っています。現在、GNNWR は GitHub 上のオープンソースであり、pip install gnnwr (Python≥3.9) への直接呼び出しをサポートしています。

GNNWR オープンソース アドレス:
https://github.com/zjuwss/gnnwr

住宅価格分析を例にとると、誰もが知っているように、住宅価格は地理的位置によって大きく影響されます。地理学では、住宅価格に影響を与える要因を明らかにするために統計分析が使用されます。従来の回帰モデルと比較して、GNNWR モデルはフィッティング精度が高いだけでなく、解釈可能性も高く、住宅価格に影響を与える要因のメカニズムとその空間的差異を深く明らかにすることができます。具体的な研究内容については、後ほど詳しくご紹介します。

原紙:
https://www.mdpi.com/2220-9964/11/8/450

https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

海洋生態環境モデリングの観点からは、リモートセンシング衛星によって宇宙から取得された海洋画像には豊富なバンド情報が含まれており、これらのバンド情報のさまざまな空間分布に基づいて、クロロフィルや浮遊堆積物などの海洋生態要素の含有量を分析できます。

近年では、海洋の重要な栄養素であるケイ酸塩の空間的および時間的分布もGTNNWRモデルを通じて推定できるようになりました。ケイ酸塩の減少は沿岸赤潮の発生につながります。GTNNWR モデルを使用すると、沿岸水域の溶存ケイ酸塩の詳細な時空間変化を取得することができ、それによって沿岸赤潮の発生に対するリモートセンシングによる早期警告信号が提供されます。 。この検討の具体的な内容については、後で詳しく説明する。

もう一つの例はPM2.5汚染です。北部の一部の重工業都市が主な汚染源となっている可能性がある。 GNNWR モデルは、空間的な非定常回帰関係を確立し、PM2.5 濃度を推定し、全国にわたる高精度で詳細かつ合理的な PM2.5 分布を提供できます。たとえば、地理空間モデリングを通じて、PM2.5 濃度は一般的に北京から連雲港まで高いことがわかりました。これは風向や風速などの要因に影響される可能性があります。さらに、特定の地域の防風林が PM2.5 の拡散を抑制する可能性があります。 。

原紙:
https://www.mdpi.com/2072-4292/13/10/1979

地質学の分野、特に金鉱床の空間分布の予測においては、私たちは、金鉱床の形成確率に対する地質学的要因の影響を明らかにする一連の研究を実施しました。構築したモデルでは、モデルの解釈可能性を高め、複雑な空間環境における鉱化作用の正確な予測と説明を実現するために、Shapley 法を導入しました。

詳細: 5 つの高度なモデルよりも優れた、浙江大学の Du Zhenhong チームは GNNWLR モデルを提案しました。これにより、石化予測の精度が向上します。

ハンバーガーの価格を例として、従来の地理モデリングの限界を探ります。

従来の統計の範囲内で、どのような要因が PM2.5 濃度に影響を与えるかを調査したい場合は、一般に重回帰分析が使用されます。つまり、x は独立変数を表し、y は従属変数を表し、y と x の関係を表します。探究されています。しかし、地理研究の分野では、空間的位置による変数間の関係の違いを考慮すると、従来の統計手法ではこのような複雑な自然現象をモデル化することが困難です。

ハンバーガーの価格を例にとると、y をハンバーガーの価格とします。北京のハンバーガーの価格は 25 元ですが、杭州では 15 元です。単純な線形モデリングを使用すると、地理的な観点から、江蘇省は北京と杭州の間に位置し、江蘇省のハンバーガーの価格は 20 元であると予測できます。しかし、地理的要因はそのような単純な直線関係ではなく、物流コスト、交通状況、原材料コストなどの複数の要因によっても影響され、これらの要因は空間内で異なる分布を示します。これは、モデリング時に、異なる地理的空間位置における各要素の重みを考慮する必要があることを意味します。

地理的関係モデリングの問題をさらに解決するために、地理学者は従来の重線形回帰を地理的加重回帰 (GWR) に拡張します。GWR では、各独立変数の前の回帰係数 β には、地理的位置に応じて変化する特性が与えられます。つまり、各回帰係数の重みは空間的位置の変化に応じて変化します。この変化は、私たちがよく「空間的非定常性」と呼ぶものであり、独立変数と従属変数の間の関係が安定した線形関係ではないことを意味します。 、しかしそれは浮き沈みがあります。

地理的に重み付けされた回帰係数を計算するにはどうすればよいですか?その核心には 2 つのポイントが含まれます。1 つ目は正確な空間距離を計算すること、2 つ目は多くのカーネル関数の中から最も正確なフィッティング関数を選択することです。

空間距離の計算にはユークリッド距離の他にマンハッタン距離の計算などもあります。杭州から南京までの距離が 200 キロメートル、北京から南京までの距離も 200 キロメートルであるとします。ユークリッド距離に基づいて計算すると、ピタゴラスの定理によって 2 つの場所間の直線距離が求められます。ただし、実際の用途では、大連と煙台間は船で約100キロメートル程度で済みますが、高速鉄道ではさらに遠回りが必要となり、実際の距離は300キロメートルを超える可能性があります。したがって、地理空間モデリングでは距離計算方法の選択が重要です。

次に、「カーネル関数」の概念を導入し、下図に示すように、分析点 (赤い点) から離れるほど重みが低くなりますが、この関係は次のようになります。単純な減少関係ではなく、空間的距離に応じて変動します。地理学者がモデルを作成する場合、ガウス関数、指数関数など、重みカーネル関数には多くの選択肢があります。

要約すると、空間距離測定の不確実性と、データに最も適合するカーネル関数の選択は、地理モデリングの精度に影響を与える主要な問題です。

従来の地理モデリングと AI の統合

複雑な非線形性は現実世界のさまざまな要因に固有の特性であり、機械学習とニューラル ネットワークはそのような問題を解決するために生まれました。

地理モデリングの分野では、2 点間の空間距離は非線形であることが多く、カーネル関数によって記述される重みも非線形に変化します。そのため、従来の地理加重回帰 (GWR) の概念とニューラル ネットワーク テクノロジを組み合わせます。に地理的ニューラル ネットワーク重み付け回帰 (GNNWR)、地理的時空間ニューラル ネットワーク重み付け回帰 (GTNNWR) などを含む、新しいクラスの方法モデルが提案されています。

関連論文:

https://www.tandfonline.com/doi/full/10.1080/13658816.2019.1707834

https://www.tandfonline.com/doi/full/10.1080/13658816.2020.1775836

https://www.tandfonline.com/doi/full/10.1080/13658816.2022.2100892

この方法には 2 つの大きな特徴があります。まず、空間距離の計算に特化したニューラル ネットワークが構築されており、実際の距離が 100 キロメートルであっても 300 キロメートルであっても、ニューラル ネットワークはビッグ データを通じてモデリングに最適な 2 点間の距離を決定できます。第二に、この方法は時空間重みネットワーク、つまり入力空間距離に基づいて出力重み値を計算する役割を担う空間重み付きニューラル ネットワークを設計します。このプロセスでは、どのカーネル関数を使用するかを事前に決定する必要はありません。代わりに、ニューラル ネットワークがデータの特性を学習し、それに応じて地理的重みを自動的に構築します。上記 2 つのニューラル ネットワークのネストされたアプリケーションを通じて、対応する変数 y の正確な予測が最終的に達成されます。

従来の方法とは異なり、GNNWR は独立変数の前の係数 β を正確に計算できます。より直観的に表示するために、次の図に示すように回帰係数 β を視覚化します。 の重量分布はオレンジ色のダイヤモンド、β β は、上部と下部のウェイトが高く、中間のウェイトが低い独特の分布パターンを示します。 それは中心の円形分布として現れます。

以下の図に示すように、ニューラル ネットワークと組み合わせた GWR の精度は、トレーニング セットとテスト セットの両方で大幅に向上しました。

住宅価格と海洋生態環境モデリングにおける GNNWR の応用

住宅価格は職場だけでなく、交通機関、学区、環境などの要因にも関係します。住宅価格モデリングに関しては、武漢の住宅価格を例として、1,000件近くの中古住宅取引記録のデータを収集し、それらを85:15の比率でトレーニングセットとテストセットに分けました。中古住宅が選ばれるのは、政策規制の影響が少なく、実際の経済フロー効果に近いからです。

研究プロセスでは、従来のニューラル ネットワーク モデリング プロセスに従い、テスト セットとトレーニング セットを分割し、住宅価格に影響を与える可能性のある一連の変数を収集しました。この事例の特徴は、従来のユークリッド距離に加えて、実際の交通状況に基づいた「通勤距離」という新たな概念を導入したことです。距離融合機能を確立することで、通勤距離とユークリッド距離を一緒にニューラル ネットワークに入力し、両者を融合した後の非線形距離を決定します。

モデルの全体的な構造は大幅に変更されていません。各因子の対応する重み w が入力され、最終的な住宅価格 y が出力されます。比較実験を通じて、私たちはそれを証明しますユークリッド距離と通勤距離の両方を考慮した場合、モデルのパフォーマンスは従来のモデリングと比較して 12% 向上し、これは個々の距離を個別にニューラル ネットワークに入力した場合の向上値よりも高くなります。

この研究では、武漢の住宅価格と大学都市、科学研究機関、テクノロジー企業、観光名所の分布との相関関係も明らかになった。さらに、提案されたモデルは、都市中心部から離れた地域の住宅価格を予測するのに特に効果的です。具体的には、市内中心部からの距離が増すにつれて、モデルの予測精度が向上します。これは、都市周縁部では特別な距離測定方法が住宅価格の変化の法則をより正確に捉えることができることを示しています。

海洋生態環境モデリングの観点からは、長江の三峡ダムを例に挙げると、ダムは堆積物を遮断して水の透明度を高めますが、同時に重要な栄養素であるケイ酸塩の海洋への流入を阻止します。有毒で有害な赤潮が増加します。従来の研究手法では、等高線図を描くことで栄養塩の流れの傾向を大まかに推定していました。しかし、新しい時代の文脈では、高空間的および時間的解像度のリモートセンシング衛星画像を使用して栄養素の分布を調査する方法が新たなテーマとなっています。そこで、ビッグデータを活用して海洋栄養塩の解析を実現したいと考え、GeoAIに基づく非線形モデリングのアイデアを提案しました。

本研究では研究チームが独自に開発したGNNWR法を採用しました。この手法の特徴を下図に示します。さらに、データセットのマッチング、リモートセンシング時空間推定、欠損データ補完などの作業も行いました。

研究の過程で、私たちは浙江省海洋監視管理局と協力し、同局が公開した監視データを使用し、Google Earth Engine Mapの有名なAPIと組み合わせて必要なリモートセンシング画像をダウンロードし、その時間、空間を定義しました。標準プロセスに従って、トレーニング セット、テスト セット、検証セットに分割され、10 分割相互検証が実装され、モデリングに最適で最も安定した結果が選択されました。

モデル化を通じて、過去 9 年間の浙江省海洋における毎日のケイ酸塩の空間的および時間的分布変化をマッピングしました。毎年8月は海洋生物や植物の活動が活発になるため、ケイ酸塩含有量が低い値を示すことが観測されました。 9 月から 10 月にかけて、長江の水が浙江省の沿岸水域に流れ込むため、この地域の栄養分が大幅に増加します。

下の図に示すように、青い曲線はケイ酸塩含有量、オレンジ色の曲線は長江の水の方向と速度を示しています。ケイ酸塩含有量と長江の分布の間には有意な相関があることがわかります。浙江方向の水域ではピアソン係数が 0.462 に達します。毎年秋から冬にかけて、長江水が浙江海域に与える影響はより顕著であることが証明されている。

さらに、海洋生物活動の変化を分析するために、高い空間的および時間的解像度のデータも使用しました。この研究では、浙江省の沿岸海域で赤潮が発生している間、相関曲線が2週間以内に2回低下したことがわかりました。AI 手法はモデルの精度を向上させるだけでなく、空間と時間の微妙な変化を明らかにすることができ、リアルタイムのモニタリングや珪藻の発生の早期警告に重要な信号を提供する可能性があります。

沿岸台風の影響については、台風が海に到達した日に栄養塩濃度がピークとなり、3日後には元の水準に戻っていることが分かりました。この現象は、台風による地下海水の撹乱により深層から海底の栄養分が地上に持ち出されることが原因であると考えられていますが、台風の後は栄養分がすぐに元の状態に戻ることがデータで確認されています。伝統的な海洋学の研究から推測されてきたことの視点。

要約すれば、この研究は、沖合赤潮の早期警戒のための予測信号を提供し、海洋の空間的および時間的変化に対する台風の影響を検証します。研究チームは、海洋水質の空間的および時間的分布の変化を調査するために海洋分野で一連の論文を発表しており、将来的には新たな研究の方向性を形成して継続する可能性がある。

浙江大学地球科学院について

今回シェアリングに参加したゲスト、Qi Jinさんは浙江大学地球科学院の出身です。研究の方向性は、人工知能海洋学および地球科学ビッグデータ分析プラットフォームの研究開発です。彼は、「第 14 次 5 か年計画」の国家重点研究開発計画のサブプロジェクトや国家自然科学財団プロジェクトなど、数多くの重要な科学研究プロジェクトを主宰し、浙江省沿岸水域生態学の技術責任者を務めました。環境多元情報インテリジェントサービスプラットフォームを開発し、海洋工学賞科学技術賞最優秀賞などを受賞。

Qi Jin の個人ホームページ:

https://person.zju.edu.cn/qijin

Du Zhenhong 教授と Wu Sensen 教授が率いる彼のチームは、近年、地球科学と情報科学の分野で一連の成果を上げています。チームが提案した GNNWR シリーズのモデルは業界の人材によって広く使用されており、このモデルは 10,000 回以上ダウンロードされ、呼び出され、引用されています。将来的には、チームは GIS の理論と手法、地球科学インテリジェント分析プラットフォーム技術を完全に開発し、GeoAI の開発を引き続き探索することに取り組んでいます。

GNNWR 研究グループのリーダーであるウー センセン研究員の個人ホームページと、時空間インテリジェント回帰モデルの紹介:

https://mypage.zju.edu.cn/wusensen/#977161

当チームは、GIS、リモートセンシング、地理学、海洋学、地質学、コンピュータサイエンスおよびテクノロジーのバックグラウンドを持つ研究者を募集しています。海外の若手人材やさまざまなハイレベルな人材の参加を歓迎します。