HyperAIHyperAI
il y a 15 jours

Un cadre de représentation d'instruction préalable pour la recherche d'images et de textes en télédétection

{Cong Bai, Qing Ma, Jiancheng Pan}
Résumé

Cet article présente un cadre de représentation d'instructions a priori (PIR) pour la recherche d'images et de textes en télédétection, visant à améliorer les tâches de compréhension vision-langage en télédétection en résolvant le problème du bruit sémantique. Notre contribution principale réside dans la proposition d'un paradigme qui exploite les connaissances a priori pour guider l'apprentissage adaptatif des représentations visuelles et textuelles. Plus précisément, deux structures d'encodeur à attention progressive (PAE), nommées Spatial-PAE et Temporal-PAE, sont proposées afin de modéliser les dépendances à longue portée et renforcer la représentation des caractéristiques clés. Dans la représentation visuelle, la représentation d'instruction visuelle (VIR), basée sur Spatial-PAE, exploite les connaissances a priori en reconnaissance des scènes en télédétection en construisant une matrice de croyance pour sélectionner les caractéristiques essentielles, réduisant ainsi l'impact du bruit sémantique. Dans la représentation textuelle, l'attention cyclique du langage (LCA), fondée sur Temporal-PAE, utilise l'état précédent dans le temps pour activer de manière cyclique l'état actuel, améliorant ainsi la capacité de représentation du texte. Un loss de fidélité par cluster est introduit pour contraindre les distinctions entre classes et réduire les zones de confusion sémantique dans l'espace commun. Des expériences approfondies démontrent que l'utilisation d'une instruction fondée sur les connaissances a priori peut renforcer significativement les représentations visuelles et textuelles, permettant à notre méthode de surpasser les approches de pointe sur deux jeux de données de référence, RSICD et RSITMD.

Un cadre de représentation d'instruction préalable pour la recherche d'images et de textes en télédétection | Articles de recherche récents | HyperAI