Réflexion sur les réseaux multi-étapes pour l'estimation de la pose humaine

Les approches actuelles d'estimation de la posture se divisent en deux catégories : les méthodes mono-étape et les méthodes multi-étapes. Bien que les méthodes multi-étapes semblent plus adaptées à cette tâche, leur performance dans la pratique actuelle n'est pas aussi bonne que celle des méthodes mono-étape. Cette étude examine ce problème. Nous soutenons que les performances insatisfaisantes des méthodes multi-étapes actuelles découlent de diverses insuffisances dans les choix de conception. Nous proposons plusieurs améliorations, notamment la conception du module mono-étape, l'agrégation des caractéristiques inter-étapes et la supervision de grossière à fine (coarse-to-fine). La méthode résultante établit un nouveau niveau de référence sur les jeux de données MS COCO et MPII Human Pose, justifiant ainsi l'efficacité d'une architecture multi-étapes. Le code source est disponible publiquement pour des recherches ultérieures.