Récolte de multiples vues pour des annotations de pose humaine 3D sans marqueurs

Les progrès récents dans les Réseaux de Neurones Convolutifs (ConvNets) ont déplacé la bouteille d'étranglement pour de nombreuses tâches en vision par ordinateur vers la collecte de données annotées. Dans cet article, nous présentons une approche guidée par la géométrie pour collecter automatiquement des annotations pour les tâches de prédiction de la posture humaine. Partant d'un ConvNet générique pour la posture humaine 2D et en supposant un dispositif multi-vues, nous décrivons une méthode automatique pour collecter des annotations précises de posture humaine 3D. Nous tirons parti des contraintes offertes par la géométrie 3D du dispositif caméra et par la structure 3D du corps humain pour combiner probabilistiquement les prédictions 2D de chaque vue en une posture 3D globalement optimale. Cette posture 3D sert de base pour l'exploitation des annotations. L'avantage des annotations produites automatiquement avec notre approche est démontré dans deux contextes difficiles : (i) l'amélioration d'un prédicteur de posture 2D basé sur un ConvNet générique afin de capturer les aspects discriminants de l'apparence d'un sujet (c'est-à-dire, « personnalisation »), et (ii) l'entraînement d'un ConvNet à partir de zéro pour la prédiction de la posture humaine 3D à partir d'une seule vue sans utiliser le vérité terrain en 3D. L'estimateur multi-vues proposé atteint des résultats à l'état de l'art sur des benchmarks standards, démontrant ainsi l'efficacité de notre méthode dans l'exploitation des informations multi-vues disponibles.