HyperAIHyperAI
il y a 15 jours

Exploration d'une méthode à granularité fine multiscale pour la recherche d'images de télédétection multimodales

Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, Xian Sun
Exploration d'une méthode à granularité fine multiscale pour la recherche d'images de télédétection multimodales
Résumé

La recherche à distance (RS) par récupération croisée multimodale texte-image a suscité un intérêt considérable grâce à ses avantages en matière d'entrée flexible et de requête efficace. Toutefois, les méthodes traditionnelles négligent les caractéristiques des cibles multi-échelles et redondantes présentes dans les images de télédétection, ce qui entraîne une dégradation de la précision de récupération. Pour faire face au problème de rareté multi-échelle et de redondance des cibles dans les tâches de récupération multimodale en télédétection, nous proposons un nouveau réseau asymétrique de correspondance de caractéristiques multimodales (AMFMN). Notre modèle s'adapte aux entrées de caractéristiques multi-échelles, favorise les approches de récupération multi-sources et peut filtrer dynamiquement les caractéristiques redondantes. L'AMFMN utilise un module d'attention visuelle auto-attention multi-échelle (MVSA) pour extraire les caractéristiques saillantes des images de télédétection, tout en utilisant ces caractéristiques visuelles pour guider la représentation textuelle. En outre, afin de réduire l'ambiguïté des échantillons positifs causée par la forte similarité intra-classe dans les images de télédétection, nous proposons une fonction de perte triplet avec marge dynamique variable, fondée sur la similarité a priori des paires d'échantillons. Enfin, contrairement aux jeux de données traditionnels image-texte en télédétection, qui présentent des descriptions textuelles grossières et une similarité intra-classe élevée, nous avons construit un nouveau jeu de données de correspondance image-texte en télédétection à granularité fine et plus exigeant, nommé RSITMD, qui permet la récupération d'images de télédétection par mots-clés, phrases ou leurs combinaisons. Des expériences menées sur quatre jeux de données de télédétection texte-image montrent que le modèle proposé atteint des performances de pointe dans la tâche de récupération croisée multimodale texte-image en télédétection.

Exploration d'une méthode à granularité fine multiscale pour la recherche d'images de télédétection multimodales | Articles de recherche récents | HyperAI