Données Synthétiques Automatiques et Alignement de Caractéristiques Adaptatif en Détail pour la Recherche de Personnes Composée

La recherche de personnes a suscité une attention croissante. Les méthodes existantes sont principalement divisées en deux modes de recherche, à savoir l'image seule et le texte seul. Cependant, ces méthodes ne parviennent pas à exploiter pleinement les informations disponibles et ont du mal à répondre aux diverses exigences des applications. Pour remédier à ces limitations, nous proposons une nouvelle tâche de Recherche de Personnes Composée (CPR), qui combine des requêtes visuelles et textuelles pour identifier les individus d'intérêt dans des bases de données d'images de personnes à grande échelle. Néanmoins, la principale difficulté de la tâche CPR est le manque de jeux de données annotés disponibles. Par conséquent, nous présentons d'abord un pipeline de synthèse de données automatique évolutif, qui décompose la génération de données multimodales complexes en la création de quadruplets textuels suivie par la synthèse d'images cohérentes avec l'identité en utilisant des modèles génératifs affinés. Parallèlement, une méthode de filtrage multimodal est conçue pour garantir que le jeu de données SynCPR résultant conserve 1,15 million de triplets synthétiques et de haute qualité. De plus, afin d'améliorer la représentation des requêtes composées sur les personnes, nous proposons un nouveau cadre Fine-grained Adaptive Feature Alignment (FAFA) grâce à un alignement dynamique fine-grain et une raisonnement sur les caractéristiques masquées. En outre, pour une évaluation objective, nous avons manuellement annoté le jeu de test Image-Text Composed Person Retrieval (ITCPR). Les expériences approfondies démontrent l'efficacité du jeu de données SynCPR et la supériorité du cadre FAFA proposé par rapport aux méthodes les plus avancées actuellement disponibles. Tout le code source et les données seront fournis à l'adresse suivante : https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.