HyperAIHyperAI
il y a 2 mois

Apprentissage de l'estimation de pose temporelle à partir de vidéos peu étiquetées

Gedas Bertasius; Christoph Feichtenhofer; Du Tran; Jianbo Shi; Lorenzo Torresani
Apprentissage de l'estimation de pose temporelle à partir de vidéos peu étiquetées
Résumé

Les approches modernes pour l'estimation de la posture de plusieurs personnes dans des vidéos nécessitent de grandes quantités d'annotations denses. Cependant, l'étiquetage de chaque image dans une vidéo est coûteux et demande beaucoup de travail. Pour réduire le besoin d'annotations denses, nous proposons un réseau PoseWarper qui utilise des vidéos d'entraînement avec des annotations éparse (toutes les k images) pour apprendre à effectuer une propagation temporelle dense de la posture et son estimation. Étant donné une paire d'images vidéo---une image étiquetée A et une image non étiquetée B---nous formons notre modèle pour prédire la posture humaine dans l'image A en utilisant les caractéristiques de l'image B par le biais de convolutions déformables afin d'apprendre implicitement le warp de la posture entre A et B. Nous démontrons que nous pouvons exploiter notre réseau PoseWarper formé pour plusieurs applications. Premièrement, au moment de l'inférence, nous pouvons inverser la direction d'application de notre réseau afin de propager les informations sur la posture des images annotées manuellement vers les images non étiquetées. Cela permet de générer des annotations de posture pour l'intégralité de la vidéo à partir d'un nombre limité d'images étiquetées manuellement. Comparativement aux méthodes modernes de propagation d'étiquettes basées sur le flux optique, notre mécanisme de warp est beaucoup plus compact (6 millions contre 39 millions de paramètres) et également plus précis (88,7 % mAP contre 83,8 % mAP). Nous montrons également que nous pouvons améliorer la précision d'un estimateur de posture en le formant sur un ensemble de données augmenté obtenu en ajoutant nos postures propagées aux étiquettes manuelles originales. Enfin, nous pouvons utiliser notre PoseWarper pour agréger les informations temporelles sur la posture provenant des images voisines lors de l'inférence. Cela permet à notre système d'obtenir des résultats détectant la posture à l'état de l'art sur les jeux de données PoseTrack2017 et PoseTrack2018. Le code est disponible à l'adresse suivante : https://github.com/facebookresearch/PoseWarper.

Apprentissage de l'estimation de pose temporelle à partir de vidéos peu étiquetées | Articles de recherche récents | HyperAI