HyperAIHyperAI
il y a 2 mois

DeciWatch : Une ligne de base simple pour une estimation de pose 2D et 3D 10 fois plus efficace

Zeng, Ailing ; Ju, Xuan ; Yang, Lei ; Gao, Ruiyuan ; Zhu, Xizhou ; Dai, Bo ; Xu, Qiang
DeciWatch : Une ligne de base simple pour une estimation de pose 2D et 3D 10 fois plus efficace
Résumé

Ce document propose un cadre de référence simple pour l'estimation 2D/3D de la posture humaine basée sur des vidéos, capable d'offrir une amélioration de l'efficacité dix fois supérieure aux travaux existants sans aucune dégradation des performances, nommé DeciWatch. Contrairement aux solutions actuelles qui estiment chaque image dans une vidéo, DeciWatch introduit un cadre simple mais efficace de sélection-débruitage-restauration qui ne surveille que des images échantillonnées de manière éparses, en tirant parti de la continuité des mouvements humains et de la représentation légère de la posture. Plus précisément, DeciWatch échantillonne uniformément moins de 10 % des images vidéo pour une estimation détaillée, débruite les postures 2D/3D estimées à l'aide d'une architecture Transformer efficace, puis restaure avec précision le reste des images en utilisant un autre réseau basé sur Transformer. Des résultats expérimentaux complets sur trois tâches d'estimation de la posture humaine basée sur des vidéos et de restitution du maillage corporel, utilisant quatre jeux de données, valident l'efficacité et l'efficience de DeciWatch. Le code est disponible à l'adresse https://github.com/cure-lab/DeciWatch.