Analyse humaine au niveau des instances par un réseau de groupement de parties

L'analyse au niveau des instances de la segmentation humaine vers des scénarios d'analyse réelle est encore peu explorée en raison du manque de ressources de données suffisantes et des difficultés techniques liées à la segmentation de plusieurs instances en une seule passe. Plusieurs travaux connexes suivent le pipeline « parsing par détection » qui repose fortement sur des modèles de détection formés séparément pour localiser les instances, puis effectuent la segmentation humaine pour chaque instance de manière séquentielle. Cependant, deux objectifs d'optimisation dissemblables pour la détection et le parsing entraînent un apprentissage sous-optimal des représentations et une accumulation d'erreurs pour les résultats finaux. Dans ce travail, nous faisons une première tentative pour explorer un réseau de regroupement de parties (Part Grouping Network, PGN) sans détection, capable de segmenter efficacement plusieurs personnes dans une image en une seule passe. Notre PGN reformule la segmentation humaine au niveau des instances en deux tâches jumelles qui peuvent être apprises conjointement et affinées mutuellement via un réseau unifié : 1) la segmentation sémantique des parties pour attribuer chaque pixel à une partie humaine (par exemple, visage, bras) ; 2) la détection d'arêtes sensible aux instances pour regrouper les parties sémantiques en instances distinctes de personnes. Ainsi, la représentation intermédiaire partagée serait dotée de capacités tant pour caractériser les parties fines que pour inférer l'appartenance à une instance de chaque partie. Enfin, un processus simple de partitionnement d'instances est utilisé lors de l'inférence pour obtenir les résultats finaux. Nous avons mené des expériences sur le jeu de données PASCAL-Person-Part et notre PGN surpassait toutes les méthodes actuelles. De plus, nous montrons sa supériorité sur un nouveau jeu de données multi-personnes (CIHP) comprenant 38 280 images diverses, qui est le plus grand jeu de données jusqu'à présent et peut faciliter une analyse humaine plus avancée. Le benchmark CIHP et notre code source sont disponibles à l'adresse http://sysu-hcp.net/lip/.