HyperAIHyperAI
il y a 8 jours

PeCLR : Estimation auto-supervisée de la posture 3D de la main à partir d'images RGB monoculaires par apprentissage contrastif équivariant

Adrian Spurr, Aneesh Dahiya, Xi Wang, Xucong Zhang, Otmar Hilliges
PeCLR : Estimation auto-supervisée de la posture 3D de la main à partir d'images RGB monoculaires par apprentissage contrastif équivariant
Résumé

Inspirés par le succès de l’apprentissage contrastif sur les tâches de classification d’images, nous proposons une nouvelle méthode auto-supervisée pour la tâche de régression structurée d’estimation de pose 3D de la main. L’apprentissage contrastif exploite les données non étiquetées afin d’apprendre des représentations via une fonction de perte qui encourage les représentations features apprises à être invariantes par rapport à toute transformation d’image. Pour l’estimation de pose 3D de la main, il est également souhaitable d’obtenir une invariance vis-à-vis des transformations d’apparence, telles que le bruit de couleur. Toutefois, cette tâche exige une équivariance par rapport aux transformations affines, telles que les rotations et les translations. Pour résoudre ce problème, nous proposons une objectif contrastif équivariant et démontrons son efficacité dans le cadre de l’estimation de pose 3D de la main. Nous étudions expérimentalement l’impact des objectifs contrastifs invariants et équivariants, et montrons que l’apprentissage de caractéristiques équivariantes conduit à des représentations améliorées pour la tâche d’estimation de pose 3D de la main. En outre, nous démontrons que des ResNets standards, suffisamment profonds et entraînés sur des données non étiquetées supplémentaires, atteignent une amélioration allant jusqu’à 14,5 % en PA-EPE sur le jeu de données FreiHAND, atteignant ainsi des performances de pointe sans nécessiter d’architectures spécialisées ou spécifiques à la tâche. Le code et les modèles sont disponibles à l’adresse suivante : https://ait.ethz.ch/projects/2021/PeCLR/

PeCLR : Estimation auto-supervisée de la posture 3D de la main à partir d'images RGB monoculaires par apprentissage contrastif équivariant | Articles de recherche récents | HyperAI