Recherche de personnes basée sur le texte avec des données limitées

La recherche de personnes basée sur le texte (TBPS) vise à retrouver une personne cible dans une galerie d'images à partir d'une requête textuelle descriptive. Résoudre une tâche de recherche intermodale fine est un défi, qui est encore aggravé par le manque de jeux de données à grande échelle. Dans cet article, nous présentons un cadre doté de deux composants novateurs pour faire face aux problèmes posés par les données limitées. Premièrement, afin d'utiliser pleinement les petits jeux de données de référence existants pour une apprentissage plus discriminant des caractéristiques, nous introduisons un cadre d'apprentissage contrastif intermodal avec momentum pour enrichir les données d'entraînement d'un mini-lot donné. Deuxièmement, nous proposons de transférer les connaissances acquises à partir des grands jeux de données existants contenant des paires image-texte provenant de domaines problématiques radicalement différents, afin de compenser le manque de données d'entraînement pour la TBPS. Une méthode d'apprentissage par transfert est conçue pour permettre le transfert d'informations utiles malgré l'écart important entre les domaines. Grâce à ces composants, notre méthode atteint un nouveau niveau d'excellence sur le jeu de données CUHK-PEDES, avec des améliorations significatives par rapport aux travaux antérieurs en termes de Rank-1 et mAP. Notre code est disponible à l'adresse suivante : https://github.com/BrandonHanx/TextReID.