il y a 15 jours

Modèle d’intégration visuelle-sémantique orienté par la direction pour la recherche d’images et de textes en télédétection

Qing Ma, Jiancheng Pan, Cong Bai

Résumé

La recherche d’images à partir de textes a connu un développement rapide ces dernières années. Toutefois, elle reste un défi dans le domaine de la télédétection en raison de l’imbalance visuelle-sémantique, qui entraîne des correspondances erronées entre des caractéristiques visuelles non sémantiques et des caractéristiques textuelles. Pour résoudre ce problème, nous proposons un nouveau modèle d’embedding visuel-sémantique orienté par la direction (DOVE) afin d’explorer les relations entre la vision et le langage. Notre contribution principale consiste à représenter de manière adaptative les données visuelles et textuelles dans un espace latent, en les orientant aussi près que possible d’une représentation visuelle régionale dépourvue de redondance. Plus précisément, un module d’attention orienté par région (ROAM) ajuste de manière adaptative la distance entre les embeddings visuels et textuels finaux dans l’espace sémantique latent, en s’appuyant sur les caractéristiques visuelles régionales. Parallèlement, un assistant léger pour l’exploration du génome textuel (DTGA) est conçu pour étendre la portée des représentations textuelles exploitables et renforcer les connexions sémantiques au niveau des mots à l’échelle globale, tout en utilisant un nombre réduit d’opérations d’attention. Enfin, nous exploitons une contrainte visuelle-sémantique globale afin de réduire la dépendance aux éléments visuels isolés et de servir de contrainte externe pour les représentations visuelles et textuelles finales. L’efficacité et la supériorité de notre méthode sont confirmées par des expérimentations approfondies, incluant une évaluation des paramètres, des comparaisons quantitatives, des études d’ablation et une analyse visuelle, sur deux jeux de données de référence : RSICD et RSITMD.