Augmentation de données guidée par MoCap pour l’estimation de pose 3D dans des conditions réelles

Ce document aborde le problème de l'estimation de la posture humaine en 3D dans des conditions réelles. Un défi majeur est le manque de données d'entraînement, c'est-à-dire d'images 2D d'humains annotées avec des postures en 3D. Ces données sont nécessaires pour entraîner les architectures CNN les plus avancées. Nous proposons ici une solution pour générer un grand ensemble d'images synthétiques photoréalistes d'humains avec des annotations de posture en 3D. Nous introduisons un moteur de synthèse basé sur les images qui augmente artificiellement un ensemble de données d'images réelles annotées avec des postures humaines en 2D à l'aide de données de capture de mouvement en 3D (MoCap). Étant donné une posture 3D candidate, notre algorithme sélectionne pour chaque articulation une image dont la posture en 2D correspond localement à la projection de la posture en 3D. Les images sélectionnées sont ensuite combinées pour générer une nouvelle image synthétique en assemblant des patchs d'images locaux selon des contraintes cinématiques. Les images résultantes sont utilisées pour entraîner un CNN bout-à-bout pour l'estimation de la posture complète du corps en 3D. Nous regroupons les données d'entraînement en un grand nombre de classes de postures et traitons l'estimation de la posture comme un problème de classification à K voies. Une telle approche n'est viable que grâce à des ensembles de données d'entraînement importants, tels que le nôtre. Notre méthode surpasse l'état de l'art en termes d'estimation de la posture en 3D dans des environnements contrôlés (Human3.6M) et montre des résultats prometteurs pour les images prises dans des conditions réelles (LSP). Cela démontre que les CNNs entraînés sur des images artificielles généralisent bien aux images réelles.