Vers une recherche unifiée de personnes basée sur le texte : Un benchmark à grande échelle pour la recherche multi-attributs et multilingue

Dans cet article, nous présentons un grand ensemble de données pour la recherche de personnes basée sur le texte, appelé MALS (Multi-Attribute and Language Search), et explorons la faisabilité d'effectuer un pré-entraînement simultanément sur les tâches de reconnaissance d'attributs et de correspondance image-texte. Plus précisément, MALS contient 1 510 330 paires image-texte, ce qui est environ 37,5 fois plus important que l'ensemble de données CUHK-PEDES couramment utilisé, et toutes les images sont annotées avec 27 attributs. En tenant compte des préoccupations liées à la vie privée et des coûts d'annotation, nous utilisons des modèles de diffusion prêts à l'emploi pour générer l'ensemble de données. Pour vérifier la faisabilité de l'apprentissage à partir des données générées, nous développons un nouveau cadre APTM (Attribute Prompt Learning and Text Matching Learning) qui prend en compte les connaissances partagées entre les attributs et le texte. Comme son nom l'indique, APTM comprend deux flux : un flux d'apprentissage par incitation d'attributs et un flux d'apprentissage de correspondance textuelle. (1) L'apprentissage par incitation d'attributs utilise des incitations d'attributs pour aligner les images et les attributs, ce qui améliore l'apprentissage de correspondance textuelle. (2) L'apprentissage de correspondance textuelle facilite l'apprentissage des représentations sur des détails fins-grainés, ce qui, à son tour, renforce l'apprentissage par incitation d'attributs. De nombreuses expériences montrent l'efficacité du pré-entraînement sur MALS, atteignant des performances de recherche d'avant-garde grâce à APTM sur trois benchmarks réels difficiles. En particulier, APTM réalise une amélioration constante de +6,96 %, +7,68 % et +16,95 % en termes de précision Recall@1 sur les ensembles de données CUHK-PEDES, ICFG-PEDES et RSTPReid respectivement.