Détection, estimation de la pose et segmentation pour plusieurs corps : boucler le cercle vertueux

Les méthodes d'estimation de la posture humaine fonctionnent bien pour des individus isolés mais rencontrent des difficultés dans les scénarios impliquant plusieurs corps en proximité. Les travaux précédents ont abordé ce problème en conditionnant l'estimation de la posture par des boîtes englobantes détectées ou des points clés, mais ont négligé les masques d'instances. Nous proposons d'imposer itérativement la cohérence mutuelle des boîtes englobantes, des masques d'instances et des postures. La méthode BBox-Mask-Pose (BMP) introduite utilise trois modèles spécialisés qui améliorent mutuellement leurs résultats dans une boucle fermée. Tous les modèles sont adaptés pour une conditionnement mutuel, ce qui augmente leur robustesse dans les scènes à plusieurs corps. MaskPose, un nouveau modèle d'estimation de la posture conditionné par le masque, est le meilleur parmi les approches descendantes sur le dataset OCHuman. BBox-Mask-Pose établit un nouvel état de l'art sur le dataset OCHuman pour les trois tâches : détection, segmentation d'instances et estimation de la posture. Il atteint également une performance au niveau de l'état de l'art pour l'estimation de la posture sur le dataset COCO. La méthode se distingue particulièrement dans les scènes où il y a un grand chevauchement d'instances, améliorant la détection de 39 % par rapport au détecteur de base. Avec des modèles spécialisés plus petits et un temps d'exécution plus rapide, BMP constitue une alternative efficace aux grands modèles fondamentaux centrés sur l'humain. Le code et les modèles sont disponibles sur https://MiraPurkrabek.github.io/BBox-Mask-Pose.