HyperAIHyperAI
il y a 2 mois

Détection et suivi : estimation de pose efficace dans les vidéos

Rohit Girdhar; Georgia Gkioxari; Lorenzo Torresani; Manohar Paluri; Du Tran
Détection et suivi : estimation de pose efficace dans les vidéos
Résumé

Ce travail aborde le problème de l'estimation et du suivi des points clés du corps humain dans des vidéos complexes impliquant plusieurs personnes. Nous proposons une approche extrêmement légère mais très efficace qui s'appuie sur les derniers progrès en matière de détection humaine et de compréhension vidéo. Notre méthode fonctionne en deux étapes : l'estimation des points clés dans les images ou les courts extraits, suivie d'un suivi léger pour générer des prédictions de points clés liées sur toute la durée de la vidéo. Pour l'estimation de la posture au niveau des images, nous expérimentons avec Mask R-CNN, ainsi qu'avec notre propre extension 3D de ce modèle, qui utilise les informations temporelles sur de petits extraits pour produire des prédictions d'images plus robustes. Nous menons des expériences ablatives approfondies sur le nouveau banc d'essai PoseTrack pour l'estimation de la posture humaine dans les vidéos à plusieurs personnes, afin de valider divers choix de conception de notre modèle. Notre approche atteint une précision de 55,2 % sur l'ensemble de validation et de 51,8 % sur l'ensemble de test en utilisant la métrique Multi-Object Tracking Accuracy (MOTA), et obtient des performances d'état de l'art lors du défi PoseTrack d'estimation et de suivi des points clés organisé par ICCV 2017.

Détection et suivi : estimation de pose efficace dans les vidéos | Articles de recherche récents | HyperAI