HyperAIHyperAI
il y a 2 mois

Estimation semi-supervisée des poses 3D de la main et des objets avec interactions temporelles

Liu, Shaowei ; Jiang, Hanwen ; Xu, Jiarui ; Liu, Sifei ; Wang, Xiaolong
Estimation semi-supervisée des poses 3D de la main et des objets avec interactions temporelles
Résumé

L'estimation de la posture 3D des mains et des objets à partir d'une seule image est un problème extrêmement difficile : les mains et les objets sont souvent auto-occlus lors des interactions, et les annotations 3D sont rares car même les humains ne peuvent pas étiqueter parfaitement les vérités terrain à partir d'une seule image. Pour relever ces défis, nous proposons un cadre unifié pour l'estimation de la posture 3D des mains et des objets en utilisant un apprentissage semi-supervisé. Nous construisons un cadre d'apprentissage conjoint où nous effectuons une raisonnement contextuel explicite entre les représentations des mains et des objets grâce à un Transformer. Au-delà des annotations 3D limitées dans une seule image, nous exploitons la cohérence spatiale et temporelle dans de vastes vidéos de mains-objets comme une contrainte pour générer des pseudo-étiquettes dans l'apprentissage semi-supervisé. Notre méthode non seulement améliore l'estimation de la posture des mains dans un ensemble de données réelles difficiles, mais elle améliore également considérablement la posture des objets, qui dispose de moins de vérités terrain par instance. En s'entraînant avec de vastes vidéos diversifiées, notre modèle généralise également mieux sur plusieurs ensembles de données hors domaine. Page du projet et code : https://stevenlsw.github.io/Semi-Hand-Object