Parsing sémantique humain guidé par l'identité pour la ré-identification de personnes

Les méthodes existantes basées sur l’alignement doivent recourir à des modèles préentraînés de segmentation humaine pour atteindre une alignement au niveau du pixel, et ne parviennent pas à identifier les objets personnels (par exemple, sacs à dos ou sacs à main), qui sont pourtant cruciaux pour la réidentification de personnes (person re-ID). Dans ce travail, nous proposons une approche de segmentation sémantique humaine guidée par l’identité (Identity-guided Human Semantic Parsing, ISP), permettant de localiser à la fois les parties du corps humain et les objets personnels au niveau du pixel, uniquement à partir d’étiquettes d’identité des personnes, pour une réidentification alignée. Nous concevons un regroupement en cascade sur les cartes de caractéristiques afin de générer des pseudo-étiquettes des parties humaines. Plus précisément, pour les pixels de toutes les images d’une même personne, nous les regroupons d’abord en avant-plan ou arrière-plan, puis regroupons les pixels de l’avant-plan en différentes parties du corps. Ces affectations de clusters sont ensuite utilisées comme pseudo-étiquettes des parties humaines pour superviser l’estimation des parties, tandis que l’ISP apprend itérativement les cartes de caractéristiques et les regroupe. Enfin, des caractéristiques locales des parties du corps humain ainsi que des objets personnels sont extraites à partir de l’estimation des parties auto-apprise, et seules les caractéristiques des parties visibles sont utilisées pour la recherche. Des expériences étendues sur trois jeux de données largement utilisés valident l’efficacité supérieure de l’ISP par rapport à de nombreuses méthodes de pointe. Notre code est disponible à l’adresse suivante : https://github.com/CASIA-IVA-Lab/ISP-reID.