HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle d’intégration visuelle-sémantique orienté par la direction pour la recherche d’images et de textes en télédétection

Qing Ma Jiancheng Pan Cong Bai

Résumé

La recherche d’images à partir de textes a connu un développement rapide ces dernières années. Toutefois, elle reste un défi dans le domaine de la télédétection en raison de l’imbalance visuelle-sémantique, qui entraîne des correspondances erronées entre des caractéristiques visuelles non sémantiques et des caractéristiques textuelles. Pour résoudre ce problème, nous proposons un nouveau modèle d’embedding visuel-sémantique orienté par la direction (DOVE) afin d’explorer les relations entre la vision et le langage. Notre contribution principale consiste à représenter de manière adaptative les données visuelles et textuelles dans un espace latent, en les orientant aussi près que possible d’une représentation visuelle régionale dépourvue de redondance. Plus précisément, un module d’attention orienté par région (ROAM) ajuste de manière adaptative la distance entre les embeddings visuels et textuels finaux dans l’espace sémantique latent, en s’appuyant sur les caractéristiques visuelles régionales. Parallèlement, un assistant léger pour l’exploration du génome textuel (DTGA) est conçu pour étendre la portée des représentations textuelles exploitables et renforcer les connexions sémantiques au niveau des mots à l’échelle globale, tout en utilisant un nombre réduit d’opérations d’attention. Enfin, nous exploitons une contrainte visuelle-sémantique globale afin de réduire la dépendance aux éléments visuels isolés et de servir de contrainte externe pour les représentations visuelles et textuelles finales. L’efficacité et la supériorité de notre méthode sont confirmées par des expérimentations approfondies, incluant une évaluation des paramètres, des comparaisons quantitatives, des études d’ablation et une analyse visuelle, sur deux jeux de données de référence : RSICD et RSITMD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp