TIPCB : Une Base de Ligne de Convolution Basée sur les Parties, Simple mais Efficace, pour la Recherche de Personnes par Texte

La recherche de personnes basée sur le texte est une sous-tâche dans le domaine de la recherche d'images, qui vise à récupérer des images cibles de personnes en fonction d'une description textuelle donnée. L'écart significatif entre les caractéristiques des deux modalités rend cette tâche très complexe. De nombreuses méthodes existantes tentent d'utiliser l'alignement local pour résoudre ce problème au niveau fin. Cependant, la plupart des méthodes pertinentes introduisent des modèles supplémentaires ou des stratégies d'entraînement et d'évaluation complexes, qui sont difficiles à mettre en œuvre dans des scénarios réalistes. Afin de faciliter l'application pratique, nous proposons un cadre d'apprentissage simple mais efficace de bout en bout pour la recherche de personnes basée sur le texte, nommé TIPCB (c'est-à-dire Text-Image Part-based Convolutional Baseline). Tout d'abord, une nouvelle structure de réseau d'alignement local à double voie est proposée pour extraire les représentations locales visuelles et textuelles, où les images sont segmentées horizontalement et les textes sont alignés de manière adaptative. Ensuite, nous proposons une stratégie de correspondance croisée multistage, qui élimine l'écart modale à trois niveaux de caractéristiques, incluant le niveau faible, le niveau local et le niveau global. Des expériences approfondies ont été menées sur l'ensemble de données de référence largement utilisé (CUHK-PEDES) et ont confirmé que notre méthode surpassait les méthodes les plus avancées actuellement disponibles avec des améliorations respectives de 3,69 %, 2,95 % et 2,31 % en termes de Top-1, Top-5 et Top-10. Notre code a été publié sur https://github.com/OrangeYHChen/TIPCB.