Estimation de la posture 3D humaine monoculaire en cascade avec des données d'entraînement évolutives

L'apprentissage de représentations profondes de bout en bout a atteint une précision remarquable pour l'estimation de la posture humaine 3D monoculaire, mais ces modèles peuvent échouer pour des postures inédites avec des données d'entraînement limitées et fixes. Cet article propose une nouvelle méthode d'augmentation de données qui : (1) est évolutif pour synthétiser une quantité massive de données d'entraînement (plus de 8 millions de postures humaines 3D valides avec leurs projections 2D correspondantes) pour entraîner des réseaux 2D-à-3D, (2) peut réduire efficacement le biais du jeu de données. Notre méthode fait évoluer un jeu de données limité pour synthétiser des squelettes humains 3D inédits basés sur une représentation hiérarchique humaine et des heuristiques inspirées par les connaissances antérieures. De nombreuses expériences montrent que notre approche non seulement atteint une précision à l'état de l'art sur le plus grand banc d'essai public, mais généralise également beaucoup mieux aux postures inédites et rares. Le code source, les modèles pré-entraînés et les outils sont disponibles à cette adresse HTTPS.