LWGANet: リモートセンシングの視覚タスク向け軽量グループアテンションバックボーン

リモートセンシング(RS)の視覚タスクは、学術的にも実践的にも重要な位置を占めるようになっています。しかし、これらのタスクには効果的な特徴抽出を妨げる多くの課題が存在します。特に、単一の画像内でスケールに大きな変動がある複数の物体を検出および認識することが困難です。これまでの双方向または多方向のアーキテクチャ戦略は、これらの物体の変動を管理する上で有効でしたが、同時に計算量とパラメータ数が大幅に増加し、リソース制約のあるデバイスでの展開が難しくなっています。現代の軽量バックボーンネットワークは主に自然画像向けに設計されており、多スケール物体からの特徴抽出に頻繁に困難を抱えています。これにより、RS視覚タスクにおける効果性が損なわれています。本論文では、RS視覚タスク向けに特別に設計された軽量バックボーンネットワークであるLWGANet(Lightweight Group Attention Network)を紹介します。LWGANetは、新しい軽量グループ注意(LWGA)モジュールを取り入れており、このモジュールはRS画像向けに調整されています。LWGAモジュールは冗長な特徴を利用し、局所から大域までの広範な空間情報を抽出することができ、追加の複雑さや計算負荷を導入することなく精密な特徴抽出を可能にします。これにより、効率的なフレームワーク内での多スケール特徴抽出が実現されます。LWGANetは12つのデータセットで厳密に評価され、これらは4つの重要なRS視覚タスク——シーン分類、向き付き物体検出、セマンティックセグメンテーション、および変化検出——をカバーしています。結果はLWGANetの広範な適用可能性と高性能と低複雑性との最適なバランス維持能力を確認しており、多様なデータセットにおいて最先端(SOTA)の結果を達成しています。LWGANetは堅牢なRS画像処理能力が必要なリソース制限のある状況に対する革新的な解決策として浮上しました。