SimpleEgo : Prédiction de la posture corporelle probabiliste à partir de caméras égocentriques

Notre travail aborde le problème de l'estimation de la posture humaine égocentrique à partir de caméras orientées vers le bas intégrées dans des dispositifs montés sur la tête (HMD). Cette situation présente un défi, car les parties du corps tombent souvent en dehors de l'image ou sont occultées. Les solutions précédentes minimisent ce problème en utilisant des objectifs grand-angle pour capturer une vue plus large, mais ces solutions peuvent poser des problèmes de conception matérielle. Elles prédisent également des cartes thermiques 2D par articulation et les transforment en espace 3D pour gérer les auto-occultations, mais cela nécessite des architectures de réseau complexes qui ne sont pas pratiques à déployer sur des HMDs aux ressources limitées. Nous prédisons la posture à partir d'images capturées avec des objectifs conventionnels rectilinéaires. Cela résout les problèmes de conception matérielle, mais signifie que les parties du corps sont souvent hors champ. Par conséquent, nous régressons directement les rotations articulaires probabilistes représentées par des distributions de Fisher matricielles pour un modèle corporel paramétrique. Cela nous permet de quantifier les incertitudes posturales et d'expliquer les articulations hors champ ou occultées. Cela supprime également la nécessité de calculer des cartes thermiques 2D et permet d'utiliser des architectures DNN simplifiées qui requièrent moins de puissance de calcul. Étant donné le manque de jeux de données égocentriques utilisant des objectifs rectilinéaires, nous introduisons le jeu de données SynthEgo, un ensemble synthétique comprenant 60 000 images stéréoscopiques présentant une grande diversité de postures, formes, vêtements et teints cutanés. Notre approche atteint des résultats d'état de l'art pour cette configuration difficile, réduisant l'erreur moyenne par articulation de 23 % globalement et de 58 % pour le bas du corps. Notre architecture comporte également huit fois moins de paramètres et s'exécute deux fois plus rapidement que l'état actuel de l'art. Les expériences montrent que l'entraînement sur notre jeu de données synthétique conduit à une bonne généralisation aux images du monde réel sans besoin d'affinage.Note :- "Head-mounted devices" est traduit par "dispositifs montés sur la tête" (HMD).- "Fish-eye camera lenses" est traduit par "objectifs grand-angle" (fish-eye), bien que "objectif poisson d'œil" soit aussi utilisé.- "Matrix Fisher distributions" est traduit par "distributions de Fisher matricielles".- "Synthetic dataset" est traduit par "jeu de données synthétique".