UniPose : estimation unifiée de la posture humaine dans les images et vidéos individuelles

Nous proposons UniPose, un cadre unifié pour l'estimation de la posture humaine, fondé sur notre architecture d'agrégation spatiale à trous « Waterfall », qui atteint des résultats de pointe sur plusieurs métriques d'estimation de posture. Les méthodes actuelles d'estimation de posture basées sur des architectures CNN standard dépendent fortement de traitements postérieurs statistiques ou de poses d'ancrage prédéfinies pour la localisation des articulations. UniPose intègre simultanément la segmentation contextuelle et la localisation des articulations afin d'estimer la posture humaine en une seule étape, avec une grande précision, sans recourir à des méthodes de post-traitement statistique. Le module Waterfall dans UniPose exploite l'efficacité du filtrage progressif dans une architecture en cascade, tout en maintenant un champ de vue multi-échelle comparable à celui des configurations de pyramide spatiale. En outre, notre méthode est étendue à UniPose-LSTM pour le traitement multi-images, atteignant ainsi des résultats de pointe pour l'estimation temporelle de posture dans les vidéos. Nos résultats sur plusieurs jeux de données démontrent qu'UniPose, combiné à un squelette ResNet et au module Waterfall, constitue une architecture robuste et efficace pour l'estimation de posture, offrant des performances de pointe dans la détection de posture d'une seule personne, tant pour les images individuelles que pour les vidéos.