15日前
細粒度マルチスケール手法を用いたクロスモーダルリモートセンシング画像検索の探求
Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, Xian Sun

要約
リモートセンシング(RS)画像とテキスト間のクロスモーダル検索は、入力の柔軟性と効率的なクエリの利点から、近年注目を集めている。しかし、従来の手法はRS画像に特有の多スケール性およびターゲットの重複性という特徴を無視しており、検索精度の低下を引き起こしている。本研究では、RSマルチモーダル検索タスクにおける多スケールターゲットの不足とターゲットの冗長性という課題に対処するため、新たな非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を提案する。本モデルは多スケール特徴入力を適応可能とし、複数の情報源からの検索を支援しつつ、冗長な特徴を動的にフィルタリングできる。AMFMNは、多スケール視覚自己注意(MVSA)モジュールを用いてRS画像の顕著な特徴を抽出し、視覚特徴をもとにテキスト表現をガイドする。さらに、RS画像におけるクラス内類似度が高いため生じるポジティブサンプルの曖昧性を軽減するため、サンプルペアの事前類似度に基づいた動的マージンを導入したトリプルット損失関数を提案する。最後に、従来のRS画像-テキストデータセットが粗いテキスト記述と高いクラス内類似度を持つのに対し、本研究ではキーワード・文の単独および統合検索を可能とする、より細粒度かつ挑戦性の高い「リモートセンシング画像-テキストマッチングデータセット」(RSITMD)を構築した。4つのRS画像-テキストデータセットにおける実験結果から、提案モデルがクロスモーダルRS画像-テキスト検索タスクにおいて最先端の性能を達成できることを示した。