15日前

グローバル–ローカル情報ソフトアライメントを用いたクロスモーダルリモートセンシング画像–テキスト検索

{Qian Wu, Jianting Zhang, Yafei Lv, Zaidao Wen, Gang Hu}
要約

クロスモーダルリモートセンシング画像・テキスト検索(CMRSITR)は、テキスト記述に基づいて対象となるリモートセンシング(RS)画像を検索することを目的とする困難なタスクである。しかし、テキストとRS画像の間には顕著なモーダルギャップが存在し、大きな課題となっている。RS画像には複数のターゲットと複雑な背景が含まれており、効果的なCMRSITRの実現には、グローバル情報とローカル情報の両方を抽出する必要がある(GaLR)。既存の手法は主に画像のローカル特徴に注目しているが、テキストのローカル特徴およびそれらの対応関係を無視している。これらのアプローチは通常、グローバルおよびローカルな画像特徴を統合し、グローバルなテキスト特徴と対応付けるが、複雑な背景の影響を十分に除去できず、重要なターゲットを見逃す可能性がある。本研究では、Transformerアーキテクチャに基づく新しいフレームワークを提案し、グローバル–ローカル情報のソフトアライメント(GLISA)を活用して検索性能を向上させる。本フレームワークは、画像・テキストペアのグローバルな意味的特徴を捉えるグローバル画像抽出モジュールを内蔵しており、RS画像内の複数ターゲット間の関係を効果的に表現できる。さらに、適応的ローカル情報抽出(ALIE)モジュールを導入し、RS画像およびテキストの両方から判別性の高いローカルな手がかりを適応的に抽出し、対応する細粒度情報をアライメントする。また、ローカル特徴のアライメント過程における意味的曖昧性を軽減するため、ローカル情報ソフトアライメント(LISA)モジュールを設計した。公開されている2つのCMRSITRデータセットを用いた比較評価において、提案手法は従来のクロスモーダル検索手法を大きく上回る結果を達成し、さらにCLIPベースの他の対照学習型言語・画像事前学習手法に対しても最先端の性能を示した。

グローバル–ローカル情報ソフトアライメントを用いたクロスモーダルリモートセンシング画像–テキスト検索 | 最新論文 | HyperAI超神経