ICML 2025 | ミュンヘン工科大学などがSD3に基づく衛星画像生成手法を開発し、現在最大のリモートセンシングデータセットを構築

衛星画像とは、衛星リモートセンシング技術によって得られた地球表面の画像です。「宇宙視点」を確立することで地球情報をデジタル化し、大規模な検知、動態追跡、データサポートを実現します。人々の日常生活において、マクロ環境ガバナンスとミクロ都市生活は切り離せない関係にあります。例えば、林業モニタリングにおいて、衛星画像は森林の分布範囲を迅速に把握し、異なる森林種の被覆率を計算し、伐採、植林、害虫や病気などによる森林被覆率の変化を検出することができます。
しかし、衛星監視はさまざまな要因の影響を受けやすく、パフォーマンスと適用効果が大幅に低下します。特に雲の影響は深刻です。例えば、雲が頻繁に発生する地域では、衛星監視が数日、あるいは数週間にわたって中断される可能性があります。これは衛星によるリアルタイムの動態監視を妨げるだけでなく、衛星画像と気象データを組み合わせて予測精度を向上させるという新たな要件を提起します。人工知能技術と機械学習アルゴリズムの急速な発展は、この要件に対処する機会をもたらしましたが、現在の手法の多くは特定のタスクや特定の地域向けに設計されており、グローバルな応用に展開できるほどの汎用性に欠けています。
上記の問題を解決するために、ドイツのミュンヘン工科大学とスイスのチューリッヒ大学のチームは、安定拡散3(SD3)を使用して地理的な気候の手がかりに基づいて衛星画像を生成する新しい方法を提案し、これまでで最大かつ最も包括的なリモートセンシングデータセットであるEcoMapperを作成しました。このデータセットは、世界104,424地点からSentinel-2によって290万枚以上のRGB衛星画像データを収集し、15種類の土地被覆タイプとそれに対応する気候記録を網羅しています。これは、微調整されたSD3モデルを用いた2つの衛星画像生成手法の基礎となります。合成画像生成と気候および土地被覆データを組み合わせることで、提案手法はリモートセンシングにおける生成モデリング技術の発展を促進し、持続的な雲の影響を受ける地域における観測ギャップを埋め、地球規模の気候適応と地理空間分析のための新たなツールを提供します。
「EcoMapper: 気候を考慮した衛星画像の生成モデリング」と題された研究成果が、ICML 2025 に選出されました。
研究のハイライト:
* 290万枚以上の衛星画像を含む、これまでで最大かつ最も包括的なリモートセンシングデータセットであるEcoMapperを構築しました。
* 微調整された Stable Diffusion 3 に基づくテキストから画像への生成モデルを開発し、気候や土地被覆の詳細を含むテキスト キューを使用して特定の地域のリアルな合成画像を生成します。
* ControlNetを使用して、気候データをマッピングしたり、景観の進化をシミュレートするための時系列を生成したりするための多条件(テキスト+画像)モデルフレームワークを開発しました。

用紙のアドレス:
データセットのダウンロードアドレス:
AIフロンティアに関するその他の論文:
データセット: これまでで最大かつ最も包括的なリモートセンシングデータセット
EcoMapper は、これまでで最大かつ最も包括的なリモート センシング データセットです。このデータセットは、世界中の 104,424 の地理的位置からサンプリングされた、気候メタデータを含む 2,904,000 枚の衛星画像で構成されています。15種類の土地被覆タイプをカバーしています。下の図をご覧ください。


で、トレーニング セットには 98,930 個の地理的ポイントが含まれており、各ポイントの観測期間は 24 か月です。研究者たちは、2年間にわたり、雲量が最も少ない日に基づいて、各地点で毎月1つの観測データを選択し、地点ごとに24枚の画像を作成しました。2年間の観測期間は、2017年から2022年の間にランダムに分布しました。
テスト セットには 5,494 個の地理的ポイントが含まれています。各地点の観測期間は2017年から2024年までの96か月(8年間)で、毎月モニタリングも実施されます。
空間的な観点から見ると、各観測の空間カバー範囲は約 26.21 平方キロメートルです。データセット全体は約 2,704,000 平方キロメートルをカバーし、地球の総陸地面積の約 2.05% に相当します。これらのデータにより、評価において十分な空間的および時間的な独立性が保証され、さまざまな地域や未知の気候条件にわたるモデルの一般化を堅牢に評価できるようになります。
さらに、各サンプリング地点には、地理的位置(緯度と経度)、観測日(年と月)、土地被覆の種類、雲量、NASA Powerによる月平均気温、日射量、総降水量などのメタデータが付加されています。これらのデータは、農業、林業、土地被覆、生物多様性へのメリットを示しています。
モデルアーキテクチャ: テキスト画像生成モデルと多条件生成モデル
この研究の目的は、地理および気候のメタデータに基づいて衛星画像を合成し、環境条件の現実的な予測を可能にすることです。研究者たちは、テキストから画像への生成と多条件画像生成という 2 つの重要なタスクに取り組む必要がありました。
研究者らは、気候メタデータを衛星画像合成に組み込む 2 つの生成モデルの能力を評価しました。
1つ目は、安定拡散3です。これは、CLIPとT5テキストエンコーダーを統合し、柔軟なプロンプト条件設定を可能にするマルチモーダル潜在拡散モデルです。研究者らは収集したデータセットを用いてStable Diffusion 3を微調整し、地理、気候、時間に関するメタデータを含む現実的な衛星画像に基づいてモデルを構築できるようにしました。
2つ目はDiffusionSatです。これは衛星画像に特化した基本モデルで、Stable Diffusion 2をベースとし、数値的調整のための専用メタデータ埋め込みレイヤーが追加されています。一般的な拡散モデルと比較して、このモデルはリモートセンシングタスクに特化して設計されており、主要な空間属性と時間属性をエンコードでき、超解像、画像復元、時間予測機能を備えています。
テキストから画像への生成タスクでは、研究者らは、微調整されたモデルと微調整されていないモデルを含む、Stable Diffusion 3 と DiffusionSat のさまざまな構成を比較し、さまざまな解像度で実験を実施しました。
* ベースライン モデル: 両方のモデルとも、微調整なしで 512 x 512 の解像度で評価されます。
* 微調整されたモデル (-FT): 両方のモデルは、512 x 512 解像度の気候メタデータを使用して微調整した後に評価されました。
* 高解像度 SD3 モデル: SD3 は、SD3-FT-HR というラベルの付いた 1024 x 1024 解像度の気候メタデータを使用して微調整およびテストされています。
多条件画像生成タスクの場合、研究者らは、LoRA (低ランク適応) テクノロジーを強化した、微調整された Stable Diffusion 3 モデルを使用して、多条件画像生成タスクを実行することを選択しました。このモデルは、高品質で文脈に即した画像を生成するための基盤として、512 x 512の解像度で学習されました。本研究では、ControlNet技術を用いて、以下の二重条件メカニズムを構築しました。
* ControlNetは、生成プロセスに明示的な空間制御を統合することで拡散モデルを強化します。この設計により、制御ブロックがメインブロックに与える初期影響は最小限に抑えられ、スキップリンクのように機能します。
* 制御信号としての衛星画像:過去数か月間の衛星画像は、生成される画像の空間構造を維持するための制御信号として機能し、地形、都市の配置、その他の地理的特徴が変化しないようにします。これにより、モデルは時間の経過に伴う変化を取り込み、現実世界の環境変化を反映することができます。
* 気候に関するヒント:テキスト調整メカニズムを利用して、衛星画像を生成するための気候と大気の条件を指定します。
これらの2つの調整係数を組み合わせることで、本研究では、空間的な一貫性を維持しながら気候変動を組み込んだ現実的な衛星画像を生成するモデルを実現しました。このアプローチは時系列データの生成もサポートしており、変化する気候条件下での景観の進化をシミュレートできます。下図をご覧ください。

Stable Diffusion 3とControlNetのフレームワークを統合し、マルチコンディション衛星画像生成を実現
プロンプト構造の観点から、衛星画像を効果的に生成するために、研究者らは、衛星画像生成をガイドするための 2 種類のプロンプト、つまり空間プロンプトと気候プロンプトを設計しました。前者は、土地被覆の種類、位置、日付、雲量などの基本メタデータをエンコードし、生成される画像が地理的および時間的なコンテキストと整合していることを保証するために使用されます。後者は、空間的な手がかりに基づいて月ごとの気候変数(気温、降水量、日射量)を統合し、画像生成のためのより豊富な環境条件情報を提供します。どちらの手がかりもStable Diffusion 3のテキストエンコーダを使用し、空間情報はCLIPで処理され、気候データはT5エンコーダで処理されます。
実験結果: 生成性能はベースラインモデルを上回ったが、まだ改善の余地がある
研究者らは多次元実験システムを設計し、複数の水平および垂直の比較と実験を通じて、気候を考慮した衛星画像を生成する際に設計された生成モデルの性能を検証しました。
まず、研究者らは5つの確立された指標を特定しました。FID(フレシェ開始距離)、LPIPS(学習知覚画像パッチ類似度)、SSIM(構造類似度指数)、PSNR(ピーク信号対雑音比)、CLIPスコアが含まれます。FIDとLPIPSは画像分布の類似性と知覚的差異を評価し、SSIMとPSNRは構造の一貫性と再構成品質を測定し、CLIPスコアはテキストと画像の配置を評価します。
テキストから画像への生成に関しては、研究者らは、Stable Diffusion 3 と DiffusionSat およびそれらの微調整バージョン (SD3-FT と DiffusionSat-FT) と SD3-FT-HR のパフォーマンスを 5,500 の地理的ポイントで比較することにより、設計されたモデルの有効性を検証しました。
以下に示すように。 ベースライン モデルの SD3 と DiffusionSat は、評価スコアが最も低くなっています。しかし、後者は前者よりも大幅に優れたパフォーマンスを発揮し、リモートセンシングの事前トレーニングの利点を示しており、すべての微調整モデルの指標が大幅に改善されています。SD3-FT は CLIP、SSIM、PSNR で優れたパフォーマンスを発揮しますが、DiffusionSat-FT は FID と LPIPS で優れたパフォーマンスを発揮します。 SD3-FT-HR の FID は 49.48 と最も低く (FID 値が低いほど信頼性が高いことを示します)、生成された画像の詳細がより鮮明であることがわかります。

定性的な結果分析では、設計されたモデルが農地と草地の規則的なテクスチャと山岳地帯の特徴を捉えることができ、特に SD3-FT-HR は植生密度の変化と高解像度の詳細において優れたパフォーマンスを発揮することが示されました。
気候感度分析では、下図に示すように、モデルによって生成された植生密度は、気候変動と有意に相関しています。本研究では、極端な気象条件を示すサンプルに対してSD3-FTモデルの定量的なストレステストを実施しました。その結果、高温・高放射線条件下では、モデルによって生成された画像のFIDが低下し(例えば、高放射線条件下ではFIDは107.34)、植生がより顕著に現れました。一方、低温・低放射線条件下では、その逆の傾向が見られ、シミュレーション効果はわずかに悪化しました。

極端な気候条件下におけるさまざまな地域のSD3-FTによって生成された衛星画像

多条件画像生成タスクでは、ControlNet と組み合わせた多条件生成が、すべての指標においてテキストから画像へのモデルよりも優れています。例えば、SD3 ControlNetのFIDは48.20です。さらに、生成画像とリアルタイム画像は空間的な整合性が強く、主要な地理的特徴を維持しながら、特定の気候変動を反映させています。次の図をご覧ください。


堅牢性テストでは、土地被覆タイプがモデル生成の安定性に大きな影響を与えます。草原やサバンナといった一般的な地形タイプは生成安定性が高く、FIDも低いのに対し、湿地や都市といった複雑または稀少な地形タイプはFIDが高く、例えば都市は284.65と高い値を示しています。これは学習データが不足しているためです。さらに、2017年から2024年のテストセットにおけるモデルのパフォーマンスは安定しており、2023年から2024年のデータセットでもパフォーマンスの低下は見られませんでした。これは、設計されたモデルが未知の時空間シナリオに対して依然として高い適応性を持っていることを証明しています。
要約すると、EcoMapperは、気候変数に基づいて衛星画像をシミュレーションするための生成フレームワークを導入し、景観が気象や長期的な気候変動にどのように反応するかをモデル化することを目的としています。これにより、気候変動の影響の可視化、シナリオ探索、そして作物の収穫量予測、土地利用モニタリング、雲域の画像補完など、衛星データと気候データを統合した下流モデルの強化といった新たな可能性が開かれます。
機械学習アルゴリズムが衛星画像生成の新たなパラダイムを切り開く
衛星画像生成における生成モデルの応用は、ディープラーニング技術によって飛躍的な進歩を遂げています。ディープラーニングは、ニューラルネットワークのディープラーニング能力と膨大な衛星データを組み合わせることで、リアルな高解像度・マルチモーダルなリモートセンシング画像を生成します。上記の内容に加え、この分野の研究コミュニティは長年にわたり「リレー競争」を展開し、手法とアプローチの継続的な革新を通じて、衛星画像研究の確固たる道を切り開いてきました。
たとえば、記事で言及されている DiffusionSat は、衛星画像専用に設計された初の大規模拡散モデルであり、マルチスペクトル入力、時系列生成、超解像をサポートしています。地理的位置などのメタデータを条件情報として革新的に使用し、衛星画像にテキスト注釈が不足している問題を解決します。関連研究はスタンフォード大学のチームによって「DIFFUSIONSAT: A GENERATIVE FOUNDATION MODEL FOR SATELLITE IMAGERY」と題して発表され、ICLR 2024 に掲載されました。
用紙のアドレス:
https://arxiv.org/pdf/2312.03606
さらに、北京航空航天大学の研究チームは、「MetaEarth:地球規模のリモートセンシング画像生成のための生成基盤モデル」と題した研究を発表しました。彼らは、MetaEarthと呼ばれる地球規模の生成モデルを提案しました。解像度ガイドによる自己カスケーディング フレームワークを通じて、モデルは段階的に低解像度から高解像度の地理画像を生成することができます。スライディング ウィンドウとノイズ共有戦略を使用して、ボーダーレス ステッチングを実現します。
用紙のアドレス:
https://arxiv.org/pdf/2405.13570
さらに、MIT、コロンビア大学、オックスフォード大学などの研究者チームも、気候変動関連の可視化のための衛星画像合成における生成視覚モデルの研究進捗を実証しました。彼らは、地球知能エンジン(EIE)と呼ばれる手法を提案しました。物理ベースの洪水モデル予測と衛星画像をディープジェネレーティブビジュアルモデルへの入力として組み合わせることで、これは、生成された画像と洪水入力の交差を評価することで実現されます。結果は、この手法が物理的一貫性と視覚品質において優れた性能を示し、物理的条件を考慮しないベースラインモデルを上回り、様々なリモートセンシングデータや気候イベントに対する一般化能力を備えていることを示しています。論文のタイトルは「気候可視化のための物理的一貫性のある衛星画像の生成」です。
用紙のアドレス:
https://arxiv.org/html/2104.04785v5
生成モデルは、洪水警報から地球規模の生成表面モデル、多スペクトルデータ融合から時空間動的シミュレーションに至るまで、衛星画像の生成と応用範囲を根本的に変革していることは間違いありません。これは、高度な技術革新を示すだけでなく、大きな応用可能性も示しています。近い将来、拡散モデルや自己カスケーディングフレームワークなどの技術のさらなる最適化により、生成モデルは衛星画像の開発にさらに強力な推進力をもたらすと期待されます。
参考文献:
1.https://arxiv.org/pdf/2312.03606
2.https://arxiv.org/html/2104.04785v5
3.https://arxiv.org/pdf/2405.13570