HigherHRNet : Apprentissage de représentations sensibles à l'échelle pour l'estimation bottom-up des poses humaines

Les méthodes de détection de la posture humaine par le bas (bottom-up) éprouvent des difficultés à prédire la posture correcte pour les personnes de petite taille en raison des défis liés aux variations d'échelle. Dans cet article, nous présentons HigherHRNet : une nouvelle méthode de détection de la posture humaine par le bas pour l'apprentissage de représentations sensibles à l'échelle en utilisant des pyramides de caractéristiques à haute résolution. Doté d'une supervision multi-résolution pour l'entraînement et d'une agrégation multi-résolution pour l'inférence, l'approche proposée est capable de résoudre le défi des variations d'échelle dans la détection de la posture multi-personne par le bas et de localiser les points clés avec plus de précision, en particulier pour les personnes de petite taille. La pyramide de caractéristiques dans HigherHRNet est composée des sorties des cartes de caractéristiques d'HRNet et des sorties à plus haute résolution interpolées par une convolution transposée. HigherHRNet surpasse la meilleure méthode précédente par le bas (bottom-up) avec un gain de 2,5% en AP (Average Precision) pour les personnes moyennes sur COCO test-dev, démontrant son efficacité dans la gestion des variations d'échelle. De plus, HigherHRNet atteint un nouveau meilleur résultat sur COCO test-dev (70,5% AP) sans utiliser de raffinement ou d'autres techniques de post-traitement, surpassant ainsi toutes les méthodes existantes par le bas. HigherHRNet dépasse même toutes les méthodes par le haut (top-down) sur CrowdPose test (67,6% AP), suggérant sa robustesse dans les scènes bondées. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation.