Une méthode simple et robuste de filtrage de corrélation pour la recherche de personnes basée sur le texte

La recherche de personnes basée sur le texte vise à associer des images de piétons à des descriptions en langage naturel. Dans cette tâche, l'extraction de représentations différenciées et leur alignement entre les identités et les descriptions constituent un problème essentiel mais difficile. La plupart des méthodes antérieures dépendent de parseurs linguistiques supplémentaires ou de techniques visuelles pour sélectionner les régions ou mots pertinents à partir d'entrées bruitées. Toutefois, cela entraîne un coût computationnel élevé ainsi qu'une accumulation inévitable d'erreurs. Par ailleurs, l'utilisation simple d'images de segmentation horizontale pour extraire des caractéristiques au niveau local nuit également à la fiabilité des modèles. Dans cet article, nous proposons une nouvelle méthode end-to-end, simple et robuste, appelée Filtrage de Corrélation Adaptatif (SRCF), capable d'extraire efficacement des indices clés et d'aligner de manière adaptative les caractéristiques discriminantes. Contrairement aux travaux antérieurs, notre cadre se concentre sur le calcul de la similarité entre des modèles (templates) et les entrées. Plus précisément, nous avons conçu deux types de modules de filtrage distincts (à savoir des filtres de débruitage et des filtres de dictionnaire) afin d'extraire des caractéristiques essentielles et d'établir des cartographies multimodales. Des expériences étendues montrent que notre méthode améliore la robustesse du modèle et atteint de meilleurs résultats sur deux jeux de données de recherche de personnes basée sur le texte. Le code source est disponible à l’adresse suivante : https://github.com/Suo-Wei/SRCF.