Estimation de la posture multi-personnes et segmentation sémantique des parties du corps

L'estimation de la posture humaine et le segmention sémantique des parties corporelles sont deux tâches complémentaires en vision par ordinateur. Dans cet article, nous proposons de résoudre ces deux tâches conjointement pour des images naturelles à plusieurs personnes, où la posture estimée fournit une contrainte de forme au niveau objet pour régulariser les segments de parties, tandis que les segments au niveau des parties limitent la variation des positions de la posture. Plus précisément, nous commençons par entraîner deux réseaux neuronaux entièrement convolutifs (FCNs), nommés Pose FCN et Part FCN, afin d'obtenir une estimation initiale du potentiel des articulations de la posture et du potentiel sémantique des parties. Ensuite, pour affiner la localisation des articulations de la posture, les deux types de potentiels sont fusionnés avec un champ aléatoire conditionnel entièrement connecté (FCRF), où un nouveau terme de lissage segment-articulation est utilisé pour encourager la cohérence sémantique et spatiale entre les parties et les articulations. Pour affiner les segments de parties, le pose raffinée et le potentiel original des parties sont intégrés via un Part FCN, où la caractéristique squelette dérivée de la posture sert d'indice supplémentaire de régularisation pour les segments de parties. Enfin, pour réduire la complexité du FCRF, nous induisons des boîtes englobantes détectées sur l'humain et inférons le graphe à l'intérieur de chaque boîte, ce qui rend l'inférence quarante fois plus rapide.Étant donné qu'il n'existe aucun jeu de données contenant à la fois des segments de parties et des étiquettes de posture, nous avons étendu le jeu de données PASCAL VOC part avec des articulations de posture humaine et effectué une série d'expériences approfondies pour comparer notre méthode à plusieurs stratégies récentes. Nous montrons que sur ce jeu de données, notre algorithme dépasse largement les méthodes concurrentes dans les deux tâches.