Réseau dual consécutif profond pour l'estimation de la posture humaine

L’estimation de la posture humaine à partir de plusieurs trames dans des situations complexes reste un défi majeur. Bien que les détecteurs d’articulations humaines les plus avancés aient obtenu des résultats remarquables sur des images statiques, leurs performances se dégradent lorsqu’ils sont appliqués à des séquences vidéo. Les limites courantes incluent la difficulté à traiter le flou de mouvement, le flou de mise au point vidéo ou les occlusions de posture, dues à l’incapacité à capturer les dépendances temporelles entre les trames vidéo. D’un autre côté, l’application directe des réseaux de neurones récurrents classiques soulève des difficultés empiriques dans la modélisation des contextes spatiaux, notamment en présence d’occlusions de posture. Dans ce travail, nous proposons un cadre novateur pour l’estimation de la posture humaine à partir de plusieurs trames, exploitant abondamment les indices temporels entre les trames vidéo afin d’améliorer la détection des points clés. Notre cadre intègre trois composants modulaires : un module Pose Temporal Merger, qui encode le contexte spatio-temporel des points clés pour générer des zones de recherche efficaces ; un module Pose Residual Fusion, qui calcule des résidus de posture pondérés dans deux directions ; ces informations sont ensuite traitées par notre réseau de correction de posture (Pose Correction Network) pour une révision efficace des estimations. Notre méthode obtient la première place au défi d’estimation de posture humaine à plusieurs trames sur les grands jeux de données de référence PoseTrack2017 et PoseTrack2018. Nous avons rendu public notre code, dans l’espoir d’inspirer des recherches futures.