Estimation faiblement supervisée de la pose 3D de la main via des contraintes biomécaniques

L’estimation de la pose 3D de la main à partir d’images 2D constitue un problème inverse difficile, en raison des ambiguïtés intrinsèques liées à l’échelle et à la profondeur. Les méthodes actuelles de pointe entraînent des réseaux neuronaux profonds entièrement supervisés à l’aide de données 3D étiquetées. Toutefois, l’acquisition d’étiquettes 3D est coûteuse, nécessitant généralement des systèmes multi-vues calibrés ou des annotations manuelles très intensives en main-d’œuvre. Bien que les annotations de points clés 2D soient bien plus faciles à obtenir, la manière dont ces données faiblement supervisées peuvent être efficacement exploitées pour améliorer la prédiction de la pose 3D de la main reste une question ouverte importante. La difficulté fondamentale provient du fait que l’application directe d’une supervision supplémentaire en 2D bénéficie principalement à l’objectif intermédiaire 2D, tout en apportant peu de réduction aux ambiguïtés de profondeur et d’échelle. Face à ce défi, nous proposons un ensemble de nouvelles fonctions de perte. À travers des expériences étendues, nous démontrons que nos contraintes proposées réduisent de manière significative l’ambiguïté de profondeur et permettent au réseau d’exploiter de manière plus efficace les images supplémentaires annotées en 2D. Par exemple, sur le dataset exigeant freiHAND, l’utilisation d’annotations 2D supplémentaires sans les contraintes biomécaniques proposées réduit l’erreur de profondeur de seulement 15 %, tandis que cette réduction atteint 50 % lorsque les contraintes biomécaniques proposées sont appliquées.