2ヶ月前
深層多モーダル融合を用いたリモートセンシング地球観測データのセマンティックセグメンテーション
Ivica Dimitrovski; Vlatko Spasev; Ivan Kitanovski

要約
リモートセンシング画像の正確な意味分割は、土地被覆マッピング、都市計画、環境監視などの地球観測応用において重要です。しかし、個々のデータソースにはこのタスクに対する制限がしばしば存在します。非常に高解像度(VHR)航空画像は豊富な空間詳細を提供しますが、土地被覆変化の時間情報を捉えることはできません。一方、衛星画像時系列(SITS)は季節的な植生変動などの時間的ダイナミクスを捉えますが、空間解像度が限定されているため、微細なオブジェクトを区別することが困難です。本論文では、VHR航空画像とSITSの補完的な強みを活用する意味分割の遅延融合深層学習モデル(LF-DLM)を提案します。提案されたモデルは2つの独立した深層学習ブランチで構成されています。1つのブランチはUNetFormerによって捉えられた航空画像からの詳細なテクスチャをMulti-Axis Vision Transformer (MaxViT) バックボーンと統合します。もう1つのブランチはU-Net with Temporal Attention Encoder (U-TAE) を使用してSentinel-2衛星画像時系列から複雑な空間時間的ダイナミクスを捉えます。このアプローチにより、多様な光学画像を使用した土地被覆分割の大規模ベンチマークであるFLAIRデータセットで最先端の結果が得られました。本研究の結果は、リモートセンシング応用における意味分割の精度と堅牢性向上に多様性融合が重要な役割を果たすことを示しています。