Estimation améliorée de la posture 3D humaine à partir de vidéos par l’utilisation d’un réseau neuronal à attention avec des convolutions dilatées

Le mécanisme d’attention fournit un cadre prédictif séquentiel pour l’apprentissage de modèles spatiaux présentant une cohérence temporelle implicite améliorée. Dans ce travail, nous proposons une approche systématique (de 2D à 3D) permettant d’intégrer de manière efficace les réseaux classiques ainsi que diverses contraintes dans le cadre d’attention afin d’apprendre des dépendances à longue portée pour la tâche d’estimation de posture. La contribution principale de cet article réside dans la proposition d’une méthode systématique pour la conception et l’entraînement de modèles basés sur l’attention destinés à l’estimation de posture en boucle complète (end-to-end), offrant une flexibilité et une scalabilité permettant d’accepter des séquences vidéo arbitraires en entrée. Cela est réalisé grâce à l’adaptation du champ réceptif temporel via une structure multi-échelle de convolutions dilatées. Par ailleurs, l’architecture proposée peut être aisément adaptée à un modèle causal, permettant ainsi des performances en temps réel. Tous systèmes d’estimation de posture 2D disponibles sur le marché, tels que des bibliothèques de motion capture (Mocap), peuvent être intégrés de manière ad hoc. Notre méthode atteint des performances de pointe et surpasser les méthodes existantes en réduisant l’erreur moyenne de position par joint à 33,4 mm sur le jeu de données Human3.6M.