HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d'une représentation de caractéristiques alignées sémantiquement pour la recherche de personnes basée sur le texte

Shiping Li Min Cao* Min Zhang

Résumé

La recherche de personnes basée sur le texte vise à récupérer des images d'un piéton spécifique à partir d'une description textuelle. Le défi majeur de cette tâche est d'éliminer l'écart inter-modalités et d'atteindre un alignement des caractéristiques entre les différentes modalités. Dans cet article, nous proposons une méthode d'incrustation sémantiquement alignée pour la recherche de personnes basée sur le texte, dans laquelle l'alignement des caractéristiques entre les modalités est réalisé par l'apprentissage automatique de caractéristiques visuelles et textuelles sémantiquement alignées. Premièrement, nous introduisons deux troncs principaux basés sur les Transformers pour encoder des représentations de caractéristiques robustes des images et des textes. Deuxièmement, nous concevons un réseau d'agrégation de caractéristiques sémantiquement alignées pour sélectionner et agréger de manière adaptative des caractéristiques ayant les mêmes sémantiques en caractéristiques conscientes des parties, ce qui est réalisé par un module d'attention multi-têtes contraint par une perte d'alignement partiel inter-modalités et une perte de diversité. Les résultats expérimentaux sur les jeux de données CUHK-PEDES et Flickr30K montrent que notre méthode atteint des performances de pointe.Note : - "Text-based person search" a été traduit par "recherche de personnes basée sur le texte".- "Inter-modality gap" a été traduit par "écart inter-modalités".- "Feature alignment" a été traduit par "alignement des caractéristiques".- "Semantic-aligned embedding method" a été traduit par "méthode d'incrustation sémantiquement alignée".- "Transformer-based backbones" a été traduit par "troncs principaux basés sur les Transformers".- "Multi-head attention module" a été traduit par "module d'attention multi-têtes".- "Cross-modality part alignment loss" a été traduit par "perte d'alignement partiel inter-modalités".- "Diversity loss" a été traduit par "perte de diversité".


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp