IBMリサーチとその他は、これまでで最大のリモートセンシングコマンドデータセットを開発し、地球観測データ専用に設計されたVLMを提案し、CVPR 2025に選定されました。

地球観測の分野は革命的な発展の波を経験しており、その重要性は日々高まっています。産業規模の観点から見ると、2024年5月の世界経済フォーラムの報告書によると、その潜在的な経済価値は、2023 年の 2,660 億ドルから 2030 年には 7,000 億ドル以上に上昇するでしょう。多くの国や国際機関は、古くから地球観測の戦略的意義を重視し、積極的に計画を立ててきました。
しかし、地球観測技術は複雑なデータの処理において困難に直面しています。従来の衛星画像解析システムは、複数のソースからのリモートセンシング データの処理が遅く、地理空間やスペクトル次元の解析に欠陥があります。視覚言語モデル (VLM) は、一般的な視覚的解釈の分野で大きな進歩を遂げてきましたが、地球観測データに直面した場合、一般的なモデルは対処が困難です。独自の地理空間、スペクトル、および時間的次元によりモデルに対する要求が高くなるため、高度な独自モデルであっても、特定のリモート センシング データを処理する際の精度は低くなります。
これまでにも、RS-GPTやGeoChatなど、地球観測の特定分野向けのVLMが発売されていますが、高解像度画像処理、マルチスペクトルおよびマルチテンポラル分析などに限界があります。この点に関して、IBMリサーチ、エミレーツ人工知能大学、オーストラリア国立大学、スウェーデンのリンショーピング大学などがVLMの研究に取り組んでいます。マルチ解像度、マルチスペクトル、マルチテンポラルのリモートセンシング画像を均一に処理できる会話型 VLM である EarthDial を共同で立ち上げ、複雑なマルチセンサー地球観測をインタラクティブな自然言語対話に革新的に変換して、さまざまなリモートセンシング タスクをサポートします。研究チームは、さまざまなマルチスペクトル モダリティを網羅する 1,111 万以上の指示ペアからなる大規模なデータセットを構築し、モデルの強力な機能の強固な基盤を築きました。
「EarthDial: 多感覚地球観測をインタラクティブな対話に変える」と題された関連研究成果が、CVPR 2025 に選定されました。
研究のハイライト:
* EarthDial は、多様な地球観測ミッションのニーズを満たすために、マルチスペクトル、マルチテンポラル、マルチ解像度のリモートセンシング画像を処理できる会話型 VLM です。
* この研究では、1,111 万組を超えるコマンドを含む最大規模のリモート センシング コマンド微調整データセットが導入され、複数のモダリティがカバーされ、モデルの理解と一般化機能が大幅に強化されました。
* 実験により、EarthDial は 44 の下流地球観測タスクで優れたパフォーマンスを発揮し、既存のドメイン固有の VLM よりも高い精度と優れた一般化能力を示すことが示されました。

用紙のアドレス:
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめており、大規模なデータ セットとツールも提供しています。
https://github.com/hyperai/awesome-ai4s
データセット: 複数の解像度と地理的位置情報をカバーする 1,000 万以上の指示
地球観測技術の分野では、データ次元の複雑さとミッションシナリオの多様性が、モデルの一般化能力に深刻な課題をもたらしています。マルチモーダル、マルチ解像度、マルチテンポラルのリモートセンシングデータ処理における従来のモデルのパフォーマンスボトルネックを打破するために、EarthDial は、リモート センシング分野に特化した大規模なデータセット EarthDial-Instruct を構築しており、これには 1,100 万を超える専門的な指示ペアが含まれています。このデータセットの事前トレーニング戦略は、モダリティ、解像度、期間全体にわたる一般化機能の構築に重点を置いています。 SkyScriptやSatlasPretrainなどの専門プラットフォームから高品質の質問と回答のペアを選択し、Sentinel-2光学画像、Sentinel-1合成開口レーダーデータ、NAIP航空画像、Landsat衛星画像などのマルチソースの異種リモートセンシングデータを統合し、同時に地理ラベル情報を構成します。
データ品質管理に関しては、研究チームは、3 重のフィルタリング メカニズムを実装しました。まず、ラベル フィールドが 3 つ未満のスパース サンプルが削除されます。次に、スペクトル輝度値の分布と地理的範囲に基づいて無効なデータが除外されます。最後に、InternLM-XComposer2 モデルの助けを借りて、画像の地理的要素に応じて標準化された質問と回答の指示のペアが自動的に生成されます。このデータ精製システムは、リモートセンシングデータのスペクトル特性の違い、空間解像度特性、および時間的な反射率の変化の法則を理解するためのモデルの強固な基盤を築きます。
EarthDial は、実用的なアプリケーションのニーズに応えて、洗練された下流タスク指示システムを構築しました。10 個のコアタスク、6 つの視覚様式、および 2 つのフェーズ タイプをカバーします。
シーン分類タスクでは、研究チームは、BigEarthNetデータセットを導入して複雑な地表被覆分類問題を処理し、FMoWマルチテンポラルデータセットを使用して土地利用変化の動的識別を実現し、地域の気候区分データとTreeSatAI時系列データセットを組み合わせて都市ヒートアイランド効果の分類と森林樹種の分布識別を実行し、小規模サンプルの専門分野における従来のモデルの一般化能力が不十分という問題を効果的に解決しました。
ターゲット検出タスクでは、研究チームは、参照、識別、位置決めの3種類のラベルを含む指導システムを設計し、光学、SAR、赤外線などのマルチモーダル画像をカバーし、ターゲットの主要な属性を定量化することで正確な空間位置決めと特徴の説明を実現しました。
視覚的な質問回答と画像説明タスクは、複数のソースのデータセットを統合して複合的な指示セットを構築します。タスクの多様性とモデル処理パフォーマンスが大幅に向上します。変更検出タスクでは、マルチデータセット融合戦略を採用しています。手動のシーケンス解析と組み合わせて、標準化された記述フレームワークが生成されました。
メタンプルーム検出の特別なニーズに応えて、研究チームは正確なターゲット誘導を実現するために、STARCOP データセットに基づく会話プロンプト テンプレートを設計しました。都市ヒートアイランド現象の研究では、画像データを通じて主要な熱指標を反転し、地域分類モデルを確立し、テーマ別の分析指示を作成しました。災害評価モジュールは、xBD 地震災害データセットと QuakeSet 地震シーケンスデータを統合し、災害レベルの分析と地震後の影響評価のための専用の指導システムを構築しました。

EarthDial: マルチ解像度、マルチスペクトル、マルチテンポラルのリモートセンシングデータを統合的に処理するための専用モデル
EarthDial は、分類、視覚的な位置特定、変化の検出などのタスクに柔軟に適用できます。これは、高度な自然画像視覚言語モデル (VLM) に基づいています。多段階の微調整により機能が拡張され、アーキテクチャとして改良された InternVL により、マルチスペクトルおよびマルチテンポラル データをサポートします。
以下の図に示すように、このモデルは、ビジュアル エンコーダー、MLP レイヤー プロジェクター、LLM の 3 つのコンポーネントで構成されています。ビジュアル エンコーダーは、ビジュアル タグを LLM 空間にマッピングするための接続ブロックとして MLP を介して LLM に接続されます。
同時に、このモデルはわずか 40 億のパラメータを持つ軽量設計になっています。効率的な操作を確保しながら、複数種類のリモートセンシングデータセットを受信し、正確なリモートセンシング対話コンテンツを生成できます。そのうち、ビジュアル エンコーダーは、60 億のパラメータを持つ InternViT から抽出された軽量の InternViT-300M を使用して、強力なビジュアル エンコード機能を確保しています。 Phi-3-mini の事前トレーニング済み LLM により、モデルは優れた言語理解および生成機能を実現します。シンプルな MLP 接続ブロックは、視覚空間と言語空間の間に橋を効果的に構築します。
また、Adaptive High Resolution と Data Fusion という 2 つのコア モジュールの追加が、複雑なリモート センシング データをモデルで処理するための鍵となっています。適応型高解像度モジュールは、InternVL 1.5 の動的戦略を活用します。画像をタイルに分割してサムネイルを生成することで、高解像度画像の詳細が保持されるだけでなく、シーン全体の理解も可能になります。データ融合モジュールは、マルチスペクトル、SAR、およびその他のデータに対してチャネル処理、特徴集約、次元削減などの戦略を使用して、視覚的特徴とテキスト特徴を深く融合し、複雑なタスクにおけるモデルのパフォーマンスを大幅に向上させます。

トレーニング段階では、EarthDial は次の 3 段階の戦略を使用して、パフォーマンスを徐々に向上させます。
最初の段階は、RS 会話事前トレーニングです。この段階では、Satlas や Skyscript などのデータセットからの 760 万の画像とテキストのペアが事前トレーニングに使用され、視覚とテキストの位置合わせ機能を確立します。
2 番目の段階は、RS RGB と時間的な微調整です。この段階では、RGB と時間データを微調整し、MLP レイヤーと LLM レイヤーを最適化します。
3 番目の段階は、RS マルチスペクトルと SAR の微調整です。このステージはマルチスペクトルおよび SAR データに拡張され、MLP および LLM レイヤーが微調整されます。
これらの 3 段階のトレーニングは段階的に行われ、EarthDial に強力な地球観測データ分析とタスク実行機能を提供し、環境監視や災害対応などの分野で革新的な進歩をもたらします。

実験結果: 複数のタスクが既存のモデルを上回り、デュアルフェーズおよびマルチフェーズシーケンス解析の処理で優れたパフォーマンスを発揮します。
実験では、EarthDial モデルはさまざまなアプリケーション シナリオで優れたパフォーマンスを発揮しました。 RGB、マルチスペクトル、SAR、赤外線、熱画像などの画像データをカバーし、シーン分類、オブジェクト検出、視覚的質問応答 (VQA)、画像の説明、変化検出、メタン煙検出などのタスクを評価します。
シーン分類タスクでは、ゼロショット評価を通じて、EarthDial は複数のデータセット、特に fMoW および xBD テスト セットにおける既存の VLM のパフォーマンスを大幅に向上させます。
ターゲット検出タスクでは、EarthDial は、参照ターゲット検出、エリア記述、位置記述の 3 つのサブタスクにおいて GPT-4o、InternVL2-4B、GeoChat などのモデルよりも優れたパフォーマンスを発揮し、特に位置記述タスクと SAR 画像データセットで優れたパフォーマンスを発揮します。
画像の説明とVQAタスクについては、EarthDial は、関連するデータセットにおいて既存のモデルよりも優れたパフォーマンスを発揮します。 VQA タスクでは、EarthDial は RSVQA-LRBEN および RSVQA-HRBEN データセットを使用して評価され、ほとんどのカテゴリで優位性があります。
変化検出タスクでは、EarthDial は、データ融合戦略を通じて時間データを効果的に処理し、強力な時間データ解釈および応答機能を発揮します。
災害評価ミッションでは、xBD データセットの 8 つのサブタスクに基づいて、EarthDial は画像分類テスト セット 1 などのサブタスクで既存の VLM を一貫して上回ります。QuakeSet データセットでは、地震予測に SAR 画像を使用し、EarthDial は 57.53% の精度を達成し、GPT-4o を上回りました。
マルチモーダルデータ処理に関しては、EarthDial は、マルチスペクトル、RGB 赤外線、SAR 画像の分類および代表オブジェクト検出タスクにおける GPT-4o のパフォーマンスを大幅に向上させ、マルチバンド融合戦略の有効性を強調しています。
都市ヒートアイランド(UHI)実験では、EarthDial は 56.77% の精度を達成し、Landsat8 バンドの温度傾向を識別できます。これは GPT-4o の 22.68% よりも優れています。
メタンプルーム分類タスクでは、STARCOP データセットを使用することで、EarthDial は 77.09% の精度を達成しました。これは GPT4o と比べて 32.16% の改善です。
地球観測におけるAI革命:データ収集からインテリジェントな意思決定へのパラダイムシフト
世界的なデジタル変革の波を受けて、AI 技術は地球観測の分野に大きな変化をもたらしています。マルチモーダル大規模モデルや軌道上インテリジェント処理などの技術革新により、この分野では従来のデータ収集から「知覚-認識-意思決定」の閉ループインテリジェントシステムへの変革が加速し、地球規模の持続可能な開発を支える中核インフラとなっています。
まず、技術革新により、業界は受動的な記録から能動的な介入へと移行しています。欧州宇宙機関と IBM が共同で開発した TerraMind モデルは、8 種類の異種データ ソースを統合します。これは世界初のマルチモーダル地球観測基本モデルとなった。モーダル推論テクノロジーにより、シベリアツンドラのメタン漏れのモニタリングデータをインテリジェントに補完し、予測精度を 20% 向上し、コンピューティング電力消費を 50% 削減します。アマゾンの熱帯雨林監視シナリオでは、生成機能を使用して、欠落した画像を自動的に修復し、全天候型の監視を実現します。
中国科学院宇宙情報創新研究所の「宇宙霊夢」3.0モデルは、数百億のパラメータを持つフルリンク解釈システムを構築します。4-10%は従来モデルに比べ精度が向上しています。雄安新区の生態評価などのシナリオにも適用されます。軌道上のインテリジェント処理に関しては、衛星ペイロードのインテリジェントアップグレードにより、エッジコンピューティング機能に飛躍的な進歩がもたらされました。 ESA の Φsat-2 衛星には、火災現場をリアルタイムで捉える山火事監視システムや、生態系への脅威を迅速に特定するアルゴリズムなど、6 つの AI アプリケーション モジュールが搭載されています。これらの技術革新は、地球観測がリアルタイムの意思決定へと進むのに役立ちます。
第二に、AI技術は地球観測の分野で幅広い応用シナリオを持ち、マクロ監視からミクロガバナンスまでを網羅しています。気候と生態系のガバナンスに関しては、TerraMind は、欧州宇宙機関 (ESA) と IBM Research Europe が開発した高度な地球観測 AI モデルです。Sentinel衛星のハイパースペクトルデータを地上センサーネットワークと統合することで、シベリアの天然ガスパイプラインの監視においてメートルレベルの測位精度が達成され、漏洩傾向の予測精度が30%向上しました。 NASA と Google の Global Forest Watch 3.0 システムは、AI とドローンによる検査を組み合わせています。コンゴ盆地の87%の違法伐採地域を特定しました。熱帯雨林を守るために強固な「デジタルフェンス」を構築します。
* 論文リンク:
https://doi.org/10.1016/j.rse.2021.112470
災害対応と都市計画の面では、アリババ・ダモ・アカデミーのリモートセンシングAI大型モデルAIE-SEGが、2024年のトルコ地震の際、被災地の建物被害評価を3時間以内に完了しました。従来の手動分析に比べて効率が 50 倍向上します。清華大学のチームが開発した時空間予測モデルは、都市の換気通路における気流の動きをシミュレートし、北京の都市計画に対する定量的な意思決定サポートを提供します。農業と資源管理の面では、Microsoft Project Premonition がインドのアーンドラ・プラデーシュ州で試験運用されています。AI ベースの精密播種推奨により、作物の収穫量が 1 ヘクタールあたり 30% 増加します。スマート農業にリアルタイムのデータサポートを提供します。
最後に、エコシステム構築の面では、地球観測分野における産学研連携とグローバルガバナンスが着実に進展しており、オープンソースエコシステムとツールチェーンの構築が継続的に改善されています。例えば、Google Earth AIがAPIインターフェースを公開、世界中の開発者が衛星データのインテリジェント処理機能にアクセスし、技術応用のハードルを下げることを支援します。国連の「AI for Good」イニシアチブは、人工知能を活用して自然災害と闘い、世界的に統一された災害評価基準の確立に取り組んでおり、データの相互運用性と技術協力を促進しています。
これは、AI技術が地球観測を「受動的な記録」から「能動的な介入」へと押し進めていることを示しています。今後、マルチモーダル大規模モデル、軌道上インテリジェント処理、量子コンピューティングなどの技術の統合により、地球観測は、カーボンニュートラル、防災・減災、資源管理などの地球規模の課題を支えるデジタルの礎となり、人間と自然の共生関係における持続可能な開発の新たな章を書き記すことが期待されています。
参考記事:
1.https://www.thepaper.cn/newsDetail_forward_30704895
2.https://mp.weixin.qq.com/s/i_Ar0RJ7g32s1ckCq81P-Q