15 Points Clés Suffisent à Tout

Le suivi de poses humaines est un problème crucial nécessitant l’identification d’instances de poses humaines uniques et leur correspondance temporelle entre différentes trames d’une vidéo. Toutefois, les méthodes existantes de suivi de poses peinent à modéliser précisément les relations temporelles et exigent des ressources computationnelles importantes, souvent en calculant les trajectoires de manière hors ligne. Nous proposons une méthode efficace de suivi de poses multi-individus, appelée KeyTrack, qui ne repose que sur les informations de points clés, sans utiliser d’informations RGB ou de flux optique, permettant ainsi un suivi en temps réel des points clés humains. Les points clés sont suivis grâce à notre méthode de Pose Entailment, dans laquelle une paire d’estimations de pose est d’abord extraite de trames différentes d’une vidéo, puis tokenisée. Ensuite, un réseau basé sur Transformer réalise une classification binaire pour déterminer si une pose suit temporellement une autre. Par ailleurs, nous améliorons notre méthode de estimation de pose en haut-début par une nouvelle technique innovante, sans paramètre, de raffinement des points clés, qui améliore les estimations de points clés utilisées lors de l’étape de Pose Entailment. Nous obtenons des résultats de pointe sur les benchmarks PoseTrack’17 et PoseTrack’18, tout en utilisant une fraction négligeable des ressources computationnelles requises par la plupart des autres méthodes pour le calcul de l’information de suivi.