Machines de Pose par Convolution

Les Pose Machines fournissent un cadre de prédiction séquentielle pour l'apprentissage de modèles spatiaux riches et implicites. Dans ce travail, nous présentons une conception systématique permettant d'intégrer les réseaux de neurones convolutifs au cadre des Pose Machines afin d'apprendre des caractéristiques d'images et des modèles spatiaux dépendants des images pour la tâche d'estimation de pose. La contribution de cet article consiste à modéliser implicitement les dépendances à longue portée entre les variables dans les tâches de prédiction structurée, telles que l'estimation de pose articulée. Nous atteignons cet objectif en concevant une architecture séquentielle composée de réseaux de neurones convolutifs qui opèrent directement sur les cartes de croyance issues des étapes précédentes, produisant ainsi des estimations de plus en plus précises des positions des parties du corps, sans nécessiter une inférence explicite au style des modèles graphiques. Notre approche aborde la difficulté caractéristique des gradients qui disparaissent lors de l'entraînement en proposant une fonction objectif d'apprentissage naturelle qui impose une supervision intermédiaire, ce qui renforce les gradients rétropropagés et conditionne la procédure d'apprentissage. Nous démontrons des performances à l'état de l'art et surpassons les méthodes concurrentes sur des benchmarks standards, notamment les jeux de données MPII, LSP et FLIC.