15日前

グローバルおよびローカル情報に基づくリモートセンシングクロスモーダルテキスト-イメージ検索

Zhiqiang Yuan, Wenkai Zhang, Changyuan Tian, Xuee Rong, Zhengyuan Zhang, Hongqi Wang, Kun Fu, Xian Sun
グローバルおよびローカル情報に基づくリモートセンシングクロスモーダルテキスト-イメージ検索
要約

近年、リモートセンシング(RS)画像における迅速かつ柔軟な情報抽出を可能にする能力から、クロスモーダルリモートセンシングテキスト-画像検索(RSCTIR)は急激に注目される研究ホットスポットとなっている。しかし、現在のRSCTIR手法は主にRS画像のグローバル特徴に注目しており、ターゲット間の関係性や顕著性を反映するローカル特徴の重要性が軽視されている。本稿では、グローバル情報とローカル情報を統合する新しいRSCTIRフレームワーク「GaLR(Global and Local Information-based RSCTIR)」を提案し、多段階の情報動的融合(MIDF)モジュールを設計することで、異なるレベルの特徴を効果的に統合する。MIDFモジュールは、ローカル情報を用いてグローバル情報を補正し、グローバル情報を用いてローカル情報を補完するとともに、両者の動的加算によって顕著な視覚表現を生成する。また、グラフ畳み込みネットワーク(GCN)における冗長ターゲットによる負荷を軽減し、ローカル特徴モデリング時に顕著なインスタンスへの注目度を向上させるため、ノイズ除去された表現行列と強化された隣接行列(DREA)を新たに設計した。DREAは類似度の高い冗長特徴をフィルタリングするとともに、顕著な物体の特徴を強化することで、より強力なローカル特徴を獲得する。さらに、推論段階における類似度行列の情報を最大限に活用するため、プラグアンドプレイ型の多変量リランク(MR)アルゴリズムを提案した。このアルゴリズムは、検索結果のk近傍を用いて逆検索を実行し、双方向検索の複数コンポーネントを統合することで性能を向上させる。公開データセット上での広範な実験により、GaLR手法がRSCTIRタスクにおいて最先端の性能を示すことが強く実証された。GaLR手法、MRアルゴリズムおよび関連ファイルのコードは、https://github.com/xiaoyuan1996/GaLR にて公開されている。

グローバルおよびローカル情報に基づくリモートセンシングクロスモーダルテキスト-イメージ検索 | 最新論文 | HyperAI超神経