Swin2-MoSE: リモートセンシング用の新しい単一画像超解像モデル

現在の光学およびセンサ技術の制限と、それらを更新する際の高コストにより、衛星のスペクトル解像度と空間解像度は常に望まれる要件を満たしていないことがあります。このような理由から、リモートセンシング単画像超解像(RS-SISR)技術が大きな関心を集めています。本論文では、Swin2SRの強化版であるSwin2-MoSEモデルを提案します。当モデルでは、すべてのトランスフォーマーブロック内のフィードフォワードを置き換えるために、強化されたエキスパート混合(Mixture-of-Experts: MoE)であるMoE-SMを導入しています。MoE-SMは、個々のエキスパートの出力を統合するための新しい層であるSmart-Mergerと、エキスパート間での作業分割方法を従来のトークンごとの方法ではなくサンプルごとの戦略で定義する新しい方法で設計されています。さらに、位置エンコーディングがどのように相互作用するかについて分析し、チャンネルごとのバイアスとヘッドごとのバイアスが肯定的に協力しあうことを示しています。最後に、典型的なMSE損失の制限を避けるために、正規化クロス相関(Normalized-Cross-Correlation: NCC)損失と構造的類似性指数測定(Structural Similarity Index Measure: SSIM)損失の組み合わせを使用することを提案します。実験結果は、Swin2-MoSEが2倍、3倍、4倍の解像度向上タスク(Sen2VenusおよびOLI2MSIデータセット)においてSwin派生モデルよりも最大0.377 - 0.958 dB (PSNR)優れていることを示しています。また、最先端モデル(SOTA)に対して大幅に優れており、特に複雑なタスクにおいて競争力があり優れた潜在性を持つことが証明されています。さらに計算コストの分析も行われています。最後に、Swin2-MoSEの効果性を示すためにセマンティックセグメンテーションタスク(SeasoNetデータセット)に適用した結果も示します。コードと事前学習済みモデルは以下のURLから入手可能です。https://github.com/IMPLabUniPr/swin2-mose/tree/official_code