RS-Mamba による大規模リモートセンシング画像の密集予測

コンテキストモデリングは、リモートセンシング画像の密集予測タスクにおいて重要な役割を果たします。現在、非常に高解像度(VHR)のリモートセンシング画像のサイズが増大していることで、効果的なコンテキストモデリングに課題が生じています。トランスフォーマーに基づくモデルはグローバルモデリング能力を持っていますが、その二次元複雑さのために大規模なVHR画像への適用では計算上の困難に直面しています。従来の大規模画像を小さなパッチに切り取る方法は、コンテキスト情報の著しい損失を引き起こします。これらの問題に対処するため、私たちは大規模VHRリモートセンシング画像の密集予測タスク向けに「リモートセンシングマムバ(RSM)」を提案します。RSMは、リモートセンシング画像のグローバルコンテキストを線形複雑さで捉えるように特別に設計されており、大規模VHR画像の効果的な処理を可能にします。リモートセンシングによる上空からの撮影特性により、土地被覆が任意の空間方向に分布していることを考慮し、RSMには多方向から大きな空間特徴を捉えるために全方向選択スキャンモジュールが組み込まれています。様々な土地被覆におけるセマンティックセグメンテーションと変化検出タスクに関する広範な実験により、提案されたRSMの有効性が示されました。私たちは単純かつ効果的なモデルをRSMに基づいて設計し、複雑な学習戦略なしでVHRリモートセンシング画像の密集予測タスクにおいて最先端の性能を達成しました。線形複雑さとグローバルモデリング能力を利用することで、RSMは大規模なリモートセンシング画像に対してトランスフォーマーに基づくモデルよりも高い効率と精度を達成しています。興味深いことに、私たちのモデルは密集予測タスクにおいて一般的に更大的な画像サイズでより良い性能を発揮することが示されました。私たちのコードは以下のURLから入手可能です: https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.