Enseignant invariant et étudiant équivariant pour l'estimation non supervisée de la posture humaine en 3D

Nous proposons une nouvelle méthode basée sur le cadre d'apprentissage professeur-élève pour l'estimation de la posture humaine en 3D sans aucune annotation 3D ou information supplémentaire. Pour résoudre ce problème d'apprentissage non supervisé, le réseau professeur utilise un modèle basé sur un dictionnaire de postures pour la régularisation, afin d'estimer une posture 3D physiquement plausible. Pour gérer l'ambiguïté de décomposition dans le réseau professeur, nous proposons une architecture cyclique cohérente favorisant une propriété invariante à la rotation en 3D pour entraîner le réseau professeur. Afin d'améliorer davantage la précision de l'estimation, le réseau élève adopte un nouveau réseau de convolution graphique pour plus de flexibilité et estime directement les coordonnées 3D. Une autre architecture cyclique cohérente favorisant une propriété équivariante à la rotation en 3D est utilisée pour exploiter la cohérence géométrique, associée au transfert de connaissances du réseau professeur afin d'améliorer les performances d'estimation de la posture. Nous menons des expériences approfondies sur les jeux de données Human3.6M et MPI-INF-3DHP. Notre méthode réduit l'erreur de prédiction des articulations 3D de 11,4 % par rapport aux méthodes non supervisées les plus avancées et surpasse également nombre de méthodes faiblement supervisées qui utilisent des informations supplémentaires sur Human3.6M. Le code sera disponible à l'adresse suivante : https://github.com/sjtuxcx/ITES.