MovieNet-PS : Un grand ensemble de données pour la recherche de personnes dans des scènes réelles

La recherche de personnes vise à localiser et à identifier conjointement une personne cible à partir d’images naturelles non rognées, un domaine qui fait l’objet d’études actives depuis plusieurs années. Dans cet article, nous explorons en profondeur les informations contextuelles riches, à la fois globales et locales, entourant la personne cible, que nous désignons respectivement comme contexte scénique et contexte de groupe. Contrairement aux travaux antérieurs qui traitaient ces deux types de contexte de manière indépendante, nous les exploitons de manière unifiée au sein d’un réseau de contexte global-local (GLCNet), dans une optique intuitive d’amélioration des caractéristiques. Plus précisément, les embeddings de ré-identification (re-ID) et les caractéristiques contextuelles sont appris simultanément de manière multi-étapes, aboutissant finalement à des caractéristiques améliorées et discriminatives pour la recherche de personnes. Nous menons des expérimentations sur deux benchmarks de recherche de personnes (à savoir CUHK-SYSU et PRW), et étendons également notre approche à un cadre plus exigeant (à savoir la recherche de personnages sur MovieNet). Les résultats expérimentaux étendus démontrent une amélioration constante du GLCNet proposé par rapport aux méthodes de pointe sur les trois jeux de données. Nos codes sources, modèles pré-entraînés et le nouveau jeu de données sont disponibles publiquement à l’adresse suivante : https://github.com/ZhengPeng7/GLCNet.