Découplage d'instance contextuel pour une estimation robuste de la posture de plusieurs personnes

Les scènes surchargées rendent difficile la distinction entre individus et la localisation de leurs points clés de posture. Ce papier propose une méthode appelée Découplage d'Instances Contextuel (CID), offrant une nouvelle architecture pour l'estimation de la posture de plusieurs personnes. Contrairement aux approches classiques qui s'appuient sur des boîtes englobantes (bounding boxes) pour différencier spatialement les individus, CID décompose les personnes présentes dans une image en plusieurs cartes de caractéristiques spécifiques à chaque instance. Chacune de ces cartes est ensuite utilisée pour prédire les points clés d'une personne particulière. Par rapport à la détection de boîtes englobantes, CID est différentiable et plus robuste aux erreurs de détection. Le découplage des individus en cartes de caractéristiques distinctes permet d'isoler les distractions provenant d'autres personnes et d'exploiter des indices contextuels à des échelles supérieures à celles des boîtes englobantes. Les expérimentations montrent que CID surpasser les méthodes antérieures d'estimation de posture multi-personne sur les benchmarks de scènes surchargées, tant en précision qu'en efficacité. Par exemple, il atteint 71,3 % d'AP sur CrowdPose, dépassant ainsi la méthode récente à une seule étape DEKR de 5,6 %, CenterAttention (approche bottom-up) de 3,7 %, et JC-SPPE (approche top-down) de 5,3 %. Ce gain de performance se maintient également sur le benchmark largement utilisé COCO.