Apprentissage collaboratif pour la reconstruction de la main et des objets avec convolution de graphe guidée par l'attention

L'estimation de la posture et de la forme des mains et des objets en interaction trouve de nombreuses applications, notamment dans la réalité augmentée et virtuelle. Les approches existantes pour la reconstruction des mains et des objets nécessitent des contraintes physiques explicitement définies et des objets connus, ce qui limite leurs domaines d'application. Notre algorithme est indépendant des modèles d'objets et apprend les règles physiques régissant l'interaction main-objet. Cela implique d'inférer automatiquement les formes et les interactions physiques entre les mains et les objets (potentiellement inconnus). Nous abordons ce problème complexe en proposant une stratégie d'apprentissage collaboratif où deux branches de réseaux profonds s'apprennent mutuellement. Plus précisément, nous transférons les informations du maillage de la main vers la branche objet et vice versa pour la branche main. Le problème d'optimisation (formation) résultant peut être instable, et nous y remédions par deux stratégies : (i) une convolution de graphe guidée par l'attention qui aide à identifier et à se concentrer sur l'occlusion mutuelle, et (ii) une perte associative non supervisée qui facilite le transfert d'informations entre les branches. Des expériences menées sur quatre benchmarks largement utilisés montrent que notre cadre dépasse l'état de l'art en termes de précision dans l'estimation de la posture 3D, tout en récupérant des formes 3D dense des mains et des objets. Chaque composante technique mentionnée ci-dessus apporte une contribution significative dans l'étude d'élimination progressive (ablation study).