Réseau Sémantiquement Auto-aligné pour la Re-identification de Personnes avec Prise en Compte des Parties dans la Synthèse d'Images à Partir du Texte

La réidentification de personnes (ReID) basée sur le texte vers l'image vise à rechercher des images contenant une personne d'intérêt à l'aide de descriptions textuelles. Cependant, en raison du fossé modal significatif et de la grande variance intra-classe dans les descriptions textuelles, la réidentification de personnes basée sur le texte vers l'image reste un problème difficile. Dans cet article, nous proposons donc un réseau sémantiquement auto-aligné (SSAN) pour traiter ces problèmes.Premièrement, nous proposons une nouvelle méthode qui extrait automatiquement des caractéristiques sémantiquement alignées au niveau des parties du corps à partir des deux modalités. Deuxièmement, nous concevons un réseau non local multi-vues qui capture les relations entre les parties du corps, établissant ainsi de meilleures correspondances entre les parties du corps et les phrases nominales. Troisièmement, nous introduisons une perte de classement composite (CR) qui utilise les descriptions textuelles d'autres images de la même identité pour fournir une supervision supplémentaire, réduisant efficacement la variance intra-classe dans les caractéristiques textuelles. Enfin, afin d'accélérer les futures recherches en matière de réidentification de personnes basée sur le texte vers l'image, nous avons créé une nouvelle base de données appelée ICFG-PEDES.Des expériences approfondies montrent que SSAN dépasse considérablement les approches actuelles de pointe. La nouvelle base de données ICFG-PEDES et le code SSAN sont disponibles à l'adresse suivante : https://github.com/zifyloo/SSAN.