HyperAIHyperAI
il y a un mois

Réseau de Tranches Minces : Un Modèle Structuré Profond pour l'Estimation de la Posture dans les Vidéos

Jie Song; Limin Wang; Luc Van Gool; Otmar Hilliges
Réseau de Tranches Minces : Un Modèle Structuré Profond pour l'Estimation de la Posture dans les Vidéos
Résumé

Les réseaux de neurones convolutifs profonds (Deep ConvNets) ont fait leurs preuves pour la tâche d'estimation de la posture humaine à partir d'images uniques. Cependant, dans le cas basé sur des vidéos, plusieurs problèmes difficiles apparaissent, tels que l'automasquage, le flou de mouvement et les postures inhabituelles avec peu ou pas d'exemples dans les ensembles de données d'entraînement. Les informations temporelles peuvent fournir des indices supplémentaires sur la localisation des articulations corporelles et aider à atténuer ces problèmes. Dans cet article, nous proposons un modèle structuré profond pour estimer une séquence de postures humaines dans des vidéos non contraintes. Ce modèle peut être formé efficacement de manière end-to-end et est capable de représenter simultanément l'apparence des articulations corporelles et leurs relations spatio-temporelles. Des connaissances spécifiques au domaine concernant le corps humain sont explicitement intégrées au réseau, fournissant des a priori efficaces pour régulariser la structure squelettique et imposer la cohérence temporelle. L'architecture end-to-end proposée est évaluée sur deux benchmarks largement utilisés (ensemble de données Penn Action et ensemble de données JHMDB) pour l'estimation de la posture basée sur des vidéos. Notre approche dépasse significativement les méthodes existantes les plus avancées.