要約
リモートセンシング(RS)画像からの建物抽出において、局所的およびグローバルな文脈依存性の両方が不可欠である。畳み込みニューラルネットワーク(CNN)は局所的な空間的詳細を効果的に抽出できるが、長距離依存性をモデル化する能力に欠ける。近年、ビジョントランスフォーマー(ViT)はグローバルな文脈依存性をモデル化する上で大きな可能性を示している。しかし、通常、膨大な計算コストを伴い、特徴抽出過程で空間的詳細が十分に保持されないという課題がある。CNNとViTの両者の利点を最大限に活かすために、本研究ではそれらを統合したDSAT-Netを提案する。DSAT-Netでは、標準的なViTの欠点を補うため、効率的な二重空間注意力トランスフォーマー(DSAFormer)を設計した。このDSAFormerは、相互に補完する二重アテンション構造を採用している。具体的には、グローバルアテンションパス(GAP)はグローバル自己アテンション計算の前に特徴マップを大規模にダウンサンプリングすることで、計算コストを低減する。一方、ローカルアテンションパス(LAP)は効率的なストライプ畳み込みを用いて局所アテンションを生成し、GAPによるダウンサンプリングに起因する情報損失を軽減するとともに、空間的詳細を補完する。さらに、低レベル特徴と高レベル特徴を融合するための特徴精製モジュールとして、チャネルミキシング特徴精製モジュール(CM-FRM)を設計した。本モデルは、3つの公開建物抽出データセットにおいて競争力ある性能を達成した。コードは以下のリンクから公開される予定である:https://github.com/stdcoutzrh/BuildingExtraction。