Aggrégation de Caractéristiques en Cascade pour l'Estimation de la Posture Humaine

L'estimation de la posture humaine joue un rôle crucial dans de nombreuses tâches de vision par ordinateur et a été étudiée pendant plusieurs décennies. Cependant, en raison des variations complexes d'apparence dues aux postures, à l'éclairage, aux occultations et aux faibles résolutions, elle reste toujours un problème difficile. L'utilisation d'informations sémantiques de haut niveau provenant des réseaux neuronaux convolutifs profonds est une méthode efficace pour améliorer la précision de l'estimation de la posture humaine. Dans cet article, nous proposons une nouvelle méthode d'agrégation de caractéristiques en cascade (CFA), qui associe plusieurs réseaux en forme d'horloge de sable pour une estimation robuste de la posture humaine. Les caractéristiques issues de différentes étapes sont agrégées afin d'obtenir des informations contextuelles abondantes, ce qui confère une robustesse face aux postures, aux occultations partielles et aux faibles résolutions. De plus, les résultats issus des différentes étapes sont fusionnés pour améliorer encore davantage la précision de localisation. Des expériences approfondies sur les jeux de données MPII et LIP montrent que notre CFA proposée surpassent l'état de l'art et atteint les meilleures performances sur le jeu de données de référence MPII (state-of-the-art benchmark MPII).