要約
近年、リモートセンシングのクロスモーダル検索は研究者からの注目を集めている。しかし、リモートセンシング画像固有の性質により、意味空間内に多くの意味的混乱領域が生じ、検索性能に大きく影響を及ぼす。本研究では、シーン認識能力を向上させることで意味的混乱を低減するため、新しいシーン認識型アグリゲーションネットワーク(SWAN)を提案する。視覚表現において、複数スケールの視覚特徴を融合するための視覚マルチスケール融合モジュール(VMSF)を導入し、視覚表現のバックボーンとして用いる。同時に、異なる粒度における顕著特徴間の関連性を構築するためのシーン細粒度センシングモジュール(SFGS)を提案する。これらのモジュールが生成する視覚情報を統合することで、シーン認識型の視覚アグリゲーション表現を構築する。テキスト表現においては、テキストの意味情報を強化し、視覚情報と整合させるためのテキスト粗粒度強化モジュール(TCGE)を設計する。さらに、リモートセンシングシーンの多様性と差異性がシーン理解を弱めるという問題に鑑み、シーンレベルの検索性能を評価することにより、シーン認識能力を測定する新たな指標「シーンリコール(scene recall)」を提案する。この指標は、本手法が意味的混乱を低減する効果を検証する手段としても有効である。2つのデータセット(RSICDおよびRSITMD)における性能比較、アブレーションスタディ、可視化解析を通じて、本手法の有効性と優位性を検証した。ソースコードは、https://github.com/kinshingpoon/SWAN-pytorch にて公開されている。