Command Palette

Search for a command to run...

Google チームは Earth AI で協力し、3 つのコア データ ポイントに焦点を当てて、地理空間推論機能を 64% 向上させました。

Featured Image

地球の時間的・空間的法則に関する人類の探究は、常に環境科学と地理学の発展の中核的な原動力となってきました。自然現象の経験的要約に頼ることから、コンピュータ技術による天気予報に至るまで、地球システムに関する人類の認識は定性的から定量的へと飛躍的に進歩しました。21世紀以降、衛星リモートセンシング、地上センサーネットワーク、地球規模の人口動態データベースといった技術が成熟し、地理空間データが爆発的に増加しました。これらのデータは、地球物理学的環境、人間活動、災害のダイナミクスといった多次元情報を網羅し、地域評価、資源配分、気候研究の重要な基盤となっています。こうした背景から、地理空間人工知能 (GeoAI) は、「地球データ」と「科学的洞察」を結びつける重要な架け橋として登場しました。

しかし、データの急増は深刻な「複雑さの障壁」ももたらします。一方で、地理空間データは日々数十億単位で増加しており、その種類は多様で、解像度も大きく異なり、期間も広範囲にわたります。さらに、一部の遠隔地ではデータのスパース性も存在します。一方、従来の特殊モデルは単一のタスクに限定されることが多く、複数の情報源からの情報を統合することが困難です。その結果、分析効率が低く、汎化能力も弱く、地域をまたぐ災害対応や多因子公衆衛生予測といった複雑なシナリオの要求を満たすことができません。GeoAIは「汎用化された基盤モデル」に移行しましたが、既存のソリューションには依然としてマルチモーダルな連携とユニバーサルなアクセシビリティが欠けています。

上記の課題に対応して、Google Research は、Google X、Google Cloud などのチームと提携し、「Earth AI」地理空間インテリジェント推論システムを提案しました。このシステムは、相互運用可能なGeoAIモデル群を構築し、画像、人口、環境という3つのコアデータタイプを基盤とした、特化した基盤モデルを開発しています。これらのモデルは、多様な次元にわたる分析ニーズに的確に適応します。Geminiベースの推論エージェントにより、このシステムは複数モデル間の緊密な連携と多段階の共同推論を可能にします。自然言語によるインタラクションによって導入障壁を大幅に低減し、専門家でないユーザーでも学際的なリアルタイム分析を実施できるようにすることで、地球システム研究を「データ蓄積」から「実用的な地球規模の洞察」へと進化させます。

関連する研究成果は「Earth AI: 基礎モデルとクロスモーダル推論による地理空間の洞察の解明」と題され、プレプリントが arXiv で公開されています。

研究のハイライト:

* 本研究のリモートセンシング基盤モデルは、オープン語彙オブジェクト検出やゼロショットクロスモーダル検索といったタスクにおいて最先端の結果を達成しました。さらに、人口動態モデルは、小売業や公衆衛生といった実世界アプリケーションを効果的に改善することが独立機関によって検証されており、月単位の粒度での時系列埋め込みをサポートするようにアップグレードされています。

* この研究では、画像、人口統計、環境モデルを統合し、より強力なマルチモーダル予測フレームワークを構築します。実証的証拠は、この融合アプローチが、複数の実世界分類および予測タスクにおいて、単一のモダリティ分析の結果を大幅に上回ることを示しています。

* この研究では、エージェントベースの複雑な地理空間推論を実装します。Gemini によって駆動される推論エージェントは、複雑な地理的クエリを自動的に分解し、マルチモデル ツールをディスパッチし、透明な推論チェーンを表示し、最終的に一貫した結論を生成することができます。

用紙のアドレス:
https://doi.org/10.48550/arXiv.2510.18318

公式アカウントをフォローし、「Earth AI」と返信すると、PDF全文を入手できます。

Earth AIデータシステム:クロスモーダル地理空間分析の基盤構築

Earth AI のトレーニング基盤は、地球システム分析用の 3 種類の専門的な地理空間データセットに基づいて構築されており、画像、人口、環境の詳細な解釈をサポートします。

画像データ処理の面では、このシステムは複数の大規模なリモートセンシングデータセットを統合します。RS-Landmarks には、高品質のテキスト記述が付いた 1,800 万枚の衛星画像と航空画像が含まれています。RS-WebLI は分類器を使用して、Web から 300 万枚を超えるオープン リモート センシング画像をスクリーニングします。この画像は数千億枚にまで拡張される可能性があります。RS-Global は、2003 年から 2022 年までの期間にわたり、0.1 メートルから 10 メートルの解像度で世界中の陸地をカバーする 3,000 万枚の画像を提供します。これらのデータセットを組み合わせることで、視覚言語モデル、オープン ボキャブラリ オブジェクト検出、少数ショット学習、事前トレーニング済みバックボーン モデルなどのリモート センシング固有のモデルの開発と最適化のためのデータ基盤が形成されます。

人口動態分析の観点からは、このデータセットは、構築された環境、自然要素、および人間の行動という3種類の情報を深く統合し、グラフニューラルネットワーク技術を使用して統一された地域埋め込みを生成します。このシステムは、米国の元の単年データに基づいて、2つの重要な拡張を実現しました。空間次元では、カバレッジがオーストラリア、ブラジル、インドを含む17か国に拡大され、検索セマンティクスはナレッジグラフによって調整され、クロス言語および国別パターン認識機能が向上しました。関連する静的埋め込みは、疫学モデリング研究のために公開されています。時間次元では、2023年7月から現在までの月ごとの動的埋め込みシーケンスが構築されています。実験的なラベリングシステムは、健康、社会経済、環境など、幅広い指標をカバーし、Yale PopHIVEプラットフォームの郡レベルの疫学月次訪問データを統合しています。ヨーロッパの地域評価では、欧州統計局のNUTSレベル3データも組み合わせています。

環境データは、天気、気候、自然災害という3種類の情報源を統合しています。複数の観測源と機械学習モデルに基づく240時間毎の天気予報と10日間の日次予報、観測所データに基づくリアルタイムの洪水監視と予測、そしてランダムニューラルネットワークに基づく実験的なサイクロン予測システムを提供します。このシステムは50通りの進路を生成し、15日先までの強度、風向、上陸地点を予測できます。

これらの構造化され標準化されたデータセットは、さまざまな分野での独立した分析をサポートするだけでなく、Gemini 駆動型推論エージェントを通じて、高度なクロスモーダル コラボレーションも実現します。このシステムは、複雑な自然言語クエリの解析から複数ソースの情報の融合まで、エンドツーエンドの分析を可能にします。また、非専門家ユーザーが自然言語または地図インターフェースを通じて複雑な地理空間分析機能に直接アクセスするための強固なデータ基盤も提供します。

Earth AI: 地球システムのインテリジェントな分析のためのマルチモーダルな協働フレームワークに向けて

Earth AI は、「地球システムのマルチモーダルな協調的理解」を主な目標とする、相互運用可能な地理空間人工知能モデルのファミリーです。カスタマイズされた地理空間推論エージェントによるコンポーネント連携と、基礎モデル(FM)および大規模言語モデル(LLM)推論に基づく汎用システムの構築により、単一目的モデルの限界を打破し、地球規模の幅広い問題に対する実用的な洞察を生み出すことができます。そのコアシステムは、「3種類の基礎モデル + モデル連携メカニズム + エージェントオーケストレーション」を中心としています。

EarthAIの概要

画像解析分野において、Earth AIはリモートセンシングの基本モデルに注力しています。その主な目標は、リモートセンシングデータに共通する2つの主要な課題、すなわちアノテーションの不足と画像の特異な分布に対処すること、そして地球観測シナリオの効率的な意味理解とターゲット分析のための技術サポートを提供することです。下図に示すように、このモデルはGoogleマップからプロフェッショナルな航空写真と衛星画像を抽出し、位置情報やランドマークなどの地理空間メタデータと組み合わせて、Geminiモデルに読み込みます。その後、カスタマイズされたプロンプトを通じて、画像の内容に正確に一致する合成キャプションを生成します。また、WebLIリモートセンシング画像とテキスト注釈、そして手動でラベル付けされたリモートセンシングセグメンテーションと物体検出データセットも統合します。このマルチソースデータは、事前学習済みのViTエンコーダー、Vision-Language Model(VLM)、そしてOpen Vocabulary Object Detection Model(OVD)という3つのコアモデルの事前学習に高品質なサンプルサポートを提供します。

リモートセンシング基本モデルの概要

このうち、視覚言語モデルはカスタマイズされたデータセットに基づいてトレーニングされ、画像とテキストの特徴の関連性を最適化することで、統一された意味理解空間が構築されます。オープン語彙オブジェクト検出モデルは改良されたTransformerアーキテクチャを採用し、画像とテキストの特徴はそれぞれ2つの独立したモジュールで処理されます。ビジュアルTransformerエンコーダーは、まず自己教師学習によって大量の画像から基本的な特徴を抽出し、次にマルチタスク共同最適化によって特定のタスクにおけるモデルの適応性とパフォーマンスを向上させます。実際のアプリケーションリンクでは、研究者はVLMモデルとOVDモデルをそれぞれの分類(Classification)、検出(Detection)、検索(Retrieval)タスクに直接使用し、ViTエンコーダーを微調整(Fine-Tuning)して、下流の特定のタスクで最高のSOTAパフォーマンスを実現しました。

人口分析の面では、Earth AI は人口動態の基本モデルを中核とし、マルチソース情報融合とプライバシー保護の原則に従い、構築環境、自然条件、人間の行動に関するデータを統合し、グラフニューラルネットワークを通じて統一された地域埋め込みを生成します。

下図に示すように、単一モデルの限界を打破するために、Earth AI は「空間アライメント + 表現統合」を使用して、マルチモデルのコラボレーションを実現します。異なるモデルの出力は統一された地理単位にマッピングされ、表現が融合されます。例えば、AlphaEarthベースモデルの画像、地形、気候情報は、人口モデルから得られる人間活動のシグナルと補完し、包括的な地域像を構築します。このモデルは2つのフェーズで動作します。第1フェーズではオフライントレーニングを行い、地図、検索傾向、環境条件などの地理空間データを用いてコンパクトな地域埋め込みをエンコードします。第2フェーズでは、事前トレーニング済みの埋め込みを用いて動的な微調整を行い、補間、外挿、超解像、ナウキャストなどの下流タスクをサポートします。

基本的な人口動態モデルの2段階の枠組み

Earth AIは、複雑で多段階的な地理空間問題を解決するために、Geminiベースの地理空間推論エージェントを開発しました。このエージェントはGoogle Agent Development Kit(ADK)を活用し、一般的な推論機能と、画像分析、人口統計、環境シミュレーション、時空間モデリングという4つの専門機能を統合しています。また、地理空間データ処理、コード生成、Earth Engineデータアクセスのためのサポートツールも提供しています。

以下に示すように、その動作は、「クエリの分析 - タスクの分解 - ツールの呼び出し - 結果の統合」というコアロジックに従います。閉ループ型の反復的に最適化された応答プロセス(「思考と計画」→ データ/モデル推論/モデルトレーニング → 反映と回復」)を通じて、複雑な事実調査、分析と関係性、予測という3種類の複雑なクエリを処理できます。ユーザーは自然言語またはマップインターフェースを介して対話することで、単純な事実の照会だけでなく、歴史的出来事における重要な施設の分布の追跡や、高リスク地域や社会的脆弱性のある地域の予測といった複雑なタスクも実行できます。これにより、事後分析から将来を見据えた計画立案まで、あらゆる意思決定ニーズをサポートします。

地理空間推論エージェント運用フレームワーク

複数の公開ベンチマークで SOTA パフォーマンスを達成し、Gemini 2.5 Pro と比較して 64% の向上を達成しました。

Earth AIの実験システムは、単一モデルのパフォーマンス、複数モデルの連携、エージェント推論という3つのレベルで構成されています。画像と人口という2つの基本モデルと、それらの統合アプリケーションおよび地理空間推論における総合的なパフォーマンスを体系的に評価します。

単一モデルによる性能検証フェーズでは、画像ベースモデルが複数のタスクにおいて卓越した性能を示しました。SigLIP2およびMaMMUTアーキテクチャに基づく視覚言語モデルは、複数の公開ベンチマークにおいて、ゼロショット分類およびテキスト検索タスクにおいて最先端の性能を達成し、一部の指標は、より大きなパラメータを持つ汎用会話モデルに匹敵するほどでした。オープン語彙検出モデルは、DOTAデータセットとDIORデータセットにおいて、それぞれ31.831 TP3Tと29.391 TP3TのゼロショットテストmAPを達成しました。クラスあたりわずか30サンプルの少数ショット学習後、mAPはさらに531 TP3T以上に向上し、既存の手法を大幅に上回りました。事前トレーニング済みのバックボーン モデルは、ImageNet 事前トレーニング ベースラインと比較して、分類、検出、セグメンテーションを含む 13 の下流タスク全体で平均 14.931 TP3T の改善を達成し、FMOW 分類や FLAIR セグメンテーションなどのタスクで新しいパフォーマンス記録を樹立しました。

人口動態基本モデルは、空間補間と時間予測のタスクにおいて優れた性能を示しています。下の図に示すように、グローバル埋め込みにより、20% 領域における欠損変数の予測タスクにおいて安定した R² パフォーマンスが維持され、国境を越えた一般化テストにおいて良好な転移性が検証されます。2023年7月から構築された月次動的埋め込みに基づくと、COVID-19およびインフルエンザの救急外来受診数の外挿予測における平均絶対誤差は、静的埋め込みと比較して大幅に低く、特に秋冬の流行ピーク時に顕著な優位性を示しました。第三者による検証により、このモデルの実世界のシナリオへの適用性と堅牢性はさらに確認されました。

動的および静的個体群動態に基づく平均絶対外挿誤差

複数モデルの共同実験では、人口動態を AlphaEarth ベースモデルに統合することで、予測精度が大幅に向上しました。米国国勢調査区域におけるFEMA災害リスクスコアの予測において、融合モデルは個別モデルと比較して平均R²が11%向上しました。CDCの21の健康指標の予測では、人口モデル単独とAlphaEarthモデル単独をそれぞれ7%、43%上回りました。さらに、このシステムは、サイクロン予測と人口モデルを組み合わせてハリケーンによる物的損害を予測する能力、そしてコンゴ民主共和国におけるコレラリスク警報のために時系列予測と気象モデルと連携する能力を実証し、ベースラインモデルと比較してRMSEが34%削減されました。

地理空間推論エージェントの能力は、標準化された質疑応答セットと危機シナリオテストを用いて評価されました。100問の評価セットにおいて、エージェントは総合スコア0.82を達成しました。これは、Gemini 2.5 Proと比較して64%、Flashと比較して110%の向上です。エージェントのパフォーマンスは、特に分析推論タスクにおいて顕著でした。10の危機対応シナリオにわたるテストにおいて、エージェントは複数回の反復最適化を経て、リッカート尺度スコアにおいてベースラインシステムを一貫して上回り、複雑で多段階的な地理空間推論タスクの処理における有効性と信頼性を実証しました。

地理空間インテリジェンスの技術革新と応用実践

Earth AIが主導するコアテクノロジーの方向性に焦点を当て、世界中の学術界と産業界が協力して、アルゴリズムの革新から体系的かつシナリオベースの実装まで、地理空間インテリジェンスを推進し、段階的に多層的で高度に調整されたテクノロジーエコシステムを構築しています。

研究の最前線では、複数のモダリティを統一的に理解することが重要なブレークスルーとなっています。トレント大学(イタリア)、ミュンヘン工科大学(ドイツ)、ベルリン工科大学(ドイツ)、そしてブルガリアのINSAIT研究所が共同で開発したEarthMindフレームワークに代表されるように、研究チームはリモートセンシングシナリオのための、多粒度、多センサーの統一理解システムを構築しました。

論文のタイトル:EarthMind: 大規模マルチモーダルモデルによる多粒度・多センサー地球観測に向けて

論文リンク:https://doi.org/10.48550/arXiv.2506.01667

さらに、スタンフォード大学のフェイフェイ・リー教授が設立したWorld Labsは、最近、Xプラットフォームを通じて空間知能モデル「Marble」の限定ベータ版をリリースしました。このモデルは3D世界生成技術に特化しており、単一の画像またはテキストプロンプトから永続的で自由に探索可能な3Dシーンを構築します。

産業用アプリケーションに関しては、企業は地理空間インテリジェンスをコアビジネス システムに積極的に組み込んでいます。 NVIDIA と UAE G42 が協力して Earth-2 プラットフォームを開発しました。生成 AI を活用して高精度の天気予報システムを構築し、FourCastNet グローバル モデルと CorrDiff ダウンスケーリング アーキテクチャの連携により、2 キロメートルの全国予報から 200 メートルの都市レベルの天気予報まで洗練された出力を実現し、数時間かかる従来のシミュレーションを数分に短縮して、異常気象に対する警報および対応能力を大幅に向上させます。 IBM と NASA が共同でリリースしたオープンソースの地理空間 AI 基盤モデル。このモデルは、NASAのHarmonized Landsat Sentinel-2プロジェクトの大規模衛星データを用いて学習され、マルチタスク共同最適化フレームワークを採用しています。気候変動監視、森林伐採の動的追跡、作物収量推定など、様々なアプリケーションをサポートしています。モデル最適化の点では、学習効率が15%向上しただけでなく、アノテーションデータの半分のみを使用しても15%の性能向上を達成しました。

学術的イノベーションから産業界の実践に至るまで、地理空間インテリジェンスは、地球システムに関する人間の理解と意思決定に、かつてないほど深く幅広く統合されつつあります。マルチモーダル融合、クロススケールモデリング、エージェントコラボレーションといった主要技術の継続的なブレークスルーにより、地球AIなどの分析フレームワークは、気候変動対応、防災・減災、資源管理といった地球規模の課題への対応において、これまで以上に中心的な役割を果たし、科学と社会経営の協調的な進化を推進することが期待されています。

参考リンク:
1. https://mp.weixin.qq.com/s/XeZdQbMvvnQId6PLWM7K1A
2. https://mp.weixin.qq.com/s/WdIq1SToGa3jmVlbGZsy8w
3. https://mp.weixin.qq.com/s/C3XqmCooqwch1JyAXCnYlQ
4. https://mp.weixin.qq.com/s/ix0r3lwiqE18gYxvJupr0g