HyperAIHyperAI
il y a 15 jours

Récupération croisée multimodale texte-image par télédétection basée sur des informations globales et locales

Zhiqiang Yuan, Wenkai Zhang, Changyuan Tian, Xuee Rong, Zhengyuan Zhang, Hongqi Wang, Kun Fu, Xian Sun
Récupération croisée multimodale texte-image par télédétection basée sur des informations globales et locales
Résumé

La recherche textuelle image à distance à modalités multiples (RSCTIR) est devenue récemment un sujet de recherche d'actualité en raison de sa capacité à permettre une extraction rapide et flexible d'informations à partir d'images de télédétection (RS). Toutefois, les méthodes actuelles de RSCTIR se concentrent principalement sur les caractéristiques globales des images RS, ce qui entraîne une négligence des caractéristiques locales reflétant les relations entre cibles et la salience. Dans cet article, nous proposons tout d'abord un cadre novateur pour la RSCTIR basé sur l'information globale et locale (GaLR), et concevons un module d'agrégation dynamique d'information multi-niveaux (MIDF) afin d'intégrer efficacement les caractéristiques de différents niveaux. Le module MIDF utilise l'information locale pour corriger l'information globale, exploite l'information globale pour compléter l'information locale, et génère une représentation visuelle distinctive grâce à une addition dynamique des deux. Pour atténuer la charge imposée par les cibles redondantes sur le réseau de convolution de graphe (GCN) et améliorer l'attention du modèle sur les instances saillantes lors de la modélisation des caractéristiques locales, nous proposons une matrice de représentation débruitée et une matrice d'adjacence améliorée (DREA), qui aident le GCN à produire des représentations locales supérieures. La DREA filtre non seulement les caractéristiques redondantes à forte similarité, mais obtient également des caractéristiques locales plus puissantes en renforçant les caractéristiques des objets saillants. Enfin, afin d’exploiter pleinement les informations contenues dans la matrice de similarité pendant l’inférence, nous introduisons un algorithme plug-and-play de réordonnancement multivarié (MR). Cet algorithme effectue une recherche inverse à partir des k plus proches voisins des résultats de recherche, et améliore les performances en combinant plusieurs composants de recherche bidirectionnelle. Des expériences étendues sur des jeux de données publics démontrent de manière convaincante que le cadre GaLR atteint un niveau d’état de l’art sur la tâche de RSCTIR. Le code du cadre GaLR, de l’algorithme MR ainsi que les fichiers associés sont disponibles à l’adresse suivante : https://github.com/xiaoyuan1996/GaLR.

Récupération croisée multimodale texte-image par télédétection basée sur des informations globales et locales | Articles de recherche récents | HyperAI