Apprentissage d'une représentation de caractéristiques alignées sémantiquement pour la recherche de personnes basée sur le texte

La recherche de personnes basée sur le texte vise à récupérer des images d'un piéton spécifique à partir d'une description textuelle. Le défi majeur de cette tâche est d'éliminer l'écart inter-modalités et d'atteindre un alignement des caractéristiques entre les différentes modalités. Dans cet article, nous proposons une méthode d'incrustation sémantiquement alignée pour la recherche de personnes basée sur le texte, dans laquelle l'alignement des caractéristiques entre les modalités est réalisé par l'apprentissage automatique de caractéristiques visuelles et textuelles sémantiquement alignées. Premièrement, nous introduisons deux troncs principaux basés sur les Transformers pour encoder des représentations de caractéristiques robustes des images et des textes. Deuxièmement, nous concevons un réseau d'agrégation de caractéristiques sémantiquement alignées pour sélectionner et agréger de manière adaptative des caractéristiques ayant les mêmes sémantiques en caractéristiques conscientes des parties, ce qui est réalisé par un module d'attention multi-têtes contraint par une perte d'alignement partiel inter-modalités et une perte de diversité. Les résultats expérimentaux sur les jeux de données CUHK-PEDES et Flickr30K montrent que notre méthode atteint des performances de pointe.Note : - "Text-based person search" a été traduit par "recherche de personnes basée sur le texte".- "Inter-modality gap" a été traduit par "écart inter-modalités".- "Feature alignment" a été traduit par "alignement des caractéristiques".- "Semantic-aligned embedding method" a été traduit par "méthode d'incrustation sémantiquement alignée".- "Transformer-based backbones" a été traduit par "troncs principaux basés sur les Transformers".- "Multi-head attention module" a été traduit par "module d'attention multi-têtes".- "Cross-modality part alignment loss" a été traduit par "perte d'alignement partiel inter-modalités".- "Diversity loss" a été traduit par "perte de diversité".