Estimation de la posture du corps entier chez l'humain dans des environnements naturels

Cette étude s'intéresse à la tâche d'estimation de la posture complète du corps humain en 2D, dont l'objectif est de localiser un grand nombre de points repères densément répartis sur l'ensemble du corps humain, y compris le visage, les mains, le tronc et les pieds. Étant donné que les jeux de données existants ne comportent pas d'annotations couvrant l'ensemble du corps, les méthodes antérieures ont dû combiner plusieurs modèles profonds entraînés indépendamment sur des jeux de données distincts dédiés au visage, aux mains et au corps, ce qui entraîne des biais liés aux données et une complexité modulaire importante. Pour combler ce manque, nous introduisons COCO-WholeBody, une extension du jeu de données COCO enrichie d'annotations complètes du corps humain. À notre connaissance, il s'agit du premier benchmark à disposer d'annotations manuelles sur l'ensemble du corps humain, incluant 133 points repères denses — 68 sur le visage, 42 sur les mains et 23 sur le tronc et les pieds. Nous proposons également un modèle à réseau unique, nommé ZoomNet, conçu pour tenir compte de la structure hiérarchique du corps humain afin de gérer efficacement les variations d'échelle entre les différentes parties du corps d'une même personne. ZoomNet surpasse significativement les méthodes existantes sur le jeu de données COCO-WholeBody proposé. Des expériences étendues montrent que COCO-WholeBody peut non seulement être utilisé pour entraîner des modèles profonds depuis le début pour l'estimation de posture complète du corps, mais aussi servir de jeu de données de pré-entraînement puissant pour de nombreuses autres tâches, telles que la détection de points clés du visage ou l'estimation des points clés des mains. Le jeu de données est disponible publiquement à l'adresse suivante : https://github.com/jin-s13/COCO-WholeBody.