17日前

SFA-Net:リモートセンシング画像セグメンテーションのための意味特徴調整ネットワーク

{Sang Jun Lee, Jiwoo Jeong, Gyutae Hwang}
要約

深層学習およびコンピュータビジョン技術の進展により、リモートセンシング分野において、土地被覆分類や変化検出などの応用における効率的なデータ解析が可能になった。畳み込みニューラルネットワーク(CNN)およびトランスフォーマー構造は、局所的な特徴とグローバルな文脈の両方を効果的に分析できるため、視覚認識アルゴリズムに広く用いられている。本論文では、CNNベースのエンコーダとトランスフォーマーに基づくデコーダから構成されるハイブリッドトランスフォーマー構造を提案する。さらに、EfficientNetバックボーンネットワークから抽出されたマルチスケール特徴マップを精緻化するための特徴調整モジュールを導入し、調整された特徴マップをトランスフォーマーに基づくデコーダに統合することで、リモートセンシング画像のセマンティックセグメンテーションを実現する。本研究で提案するエンコーダ–デコーダ構造を「セマンティック特徴調整ネットワーク(SFA-Net)」と呼ぶ。SFA-Netの有効性を検証するため、UAVid、ISPRS Potsdam、ISPRS Vaihingen、LoveDAの4つの公開ベンチマークデータセットを用いて広範な実験を行った。提案モデルは、UAVid、ISPRS Vaihingen、LoveDAデータセットにおいて、リモートセンシング画像のセグメンテーションで最先端の精度を達成した。また、ISPRS Potsdamデータセットでは、最新のモデルと同等の精度を達成しつつ、学習可能なパラメータ数を113.8Mから10.7Mへと大幅に削減した。