HyperAIHyperAI
il y a 3 mois

Forme et posture humaines 3D à partir d'une seule image à faible résolution grâce à l'apprentissage auto-supervisé

Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando De la Torre
Forme et posture humaines 3D à partir d'une seule image à faible résolution grâce à l'apprentissage auto-supervisé
Résumé

L’estimation de la forme et de la posture humaines en 3D à partir d’images monoculaires constitue un domaine de recherche actif en vision par ordinateur, ayant un impact significatif sur le développement de nouvelles applications, allant de la reconnaissance d’activités à la création d’avatars virtuels. Les méthodes actuelles fondées sur l’apprentissage profond pour l’estimation 3D de la forme et de la posture humaines reposent généralement sur des images d’entrée à résolution relativement élevée ; toutefois, un contenu visuel à haute résolution n’est pas toujours disponible dans de nombreuses situations pratiques, telles que la surveillance vidéo ou la diffusion sportive. Les images à basse résolution rencontrées dans des scénarios réels peuvent présenter une grande variété de tailles, et un modèle entraîné à une résolution donnée ne se dégrade généralement pas de manière progressive lorsqu’il est appliqué à d’autres résolutions. Deux approches courantes pour traiter ce problème consistent à appliquer des techniques de super-résolution aux images d’entrée, ce qui peut entraîner des artefacts visuels, ou à entraîner un modèle distinct pour chaque résolution, ce qui s’avère peu pratique dans de nombreuses applications réalistes. Pour remédier à ces limitations, ce papier propose un nouvel algorithme appelé RSC-Net, composé d’un réseau sensible à la résolution, d’une fonction de perte auto-supervisée et d’un schéma d’apprentissage contrastif. Le réseau proposé permet d’apprendre la forme et la posture corporelle 3D à travers différentes résolutions avec un seul modèle. La fonction de perte auto-supervisée encourage la cohérence à l’échelle des sorties, tandis que le schéma d’apprentissage contrastif impose une cohérence à l’échelle des caractéristiques profondes. Nous démontrons que ces deux nouvelles fonctions de perte apportent une robustesse accrue lors de l’apprentissage de la forme et de la posture 3D de manière faiblement supervisée. Des expériences étendues montrent que RSC-Net atteint systématiquement de meilleurs résultats que les méthodes de pointe dans le cas d’images à basse résolution exigeantes.