Machines de pose LSTM

Nous avons observé que les résultats les plus récents et de pointe en estimation de la posture humaine à partir d'une seule image ont été obtenus grâce à des réseaux neuronaux convolutifs (CNN) multi-étapes. Bien que ces modèles présentent des performances supérieures sur des images statiques, leur application aux vidéos est non seulement très exigeante en termes de calcul, mais elle souffre également d'une dégradation des performances et de clignotements. Ces résultats sous-optimaux sont principalement attribués à l'impossibilité d'imposer une cohérence géométrique séquentielle, de gérer une forte dégradation de la qualité des images (par exemple, flou de mouvement et occultation) ainsi qu'à l'impossibilité de capturer la corrélation temporelle entre les trames vidéo. Dans cet article, nous proposons un nouveau réseau récurrent pour résoudre ces problèmes. Nous montrons que si nous appliquons le schéma de partage des poids au CNN multi-étapes, il peut être reformulé comme un réseau neuronal récurrent (RNN). Cette propriété dissocie les relations entre les différentes étapes du réseau et entraîne une vitesse significativement plus rapide lors de l'invocation du réseau pour les vidéos. Elle permet également l'intégration d'unités Long Short-Term Memory (LSTM) entre les trames vidéo. Nous avons constaté que ce RNN augmenté par la mémoire est très efficace pour imposer une cohérence géométrique entre les trames. Il gère également bien la dégradation de la qualité des entrées dans les vidéos tout en stabilisant avec succès les sorties séquentielles. Les expériences ont montré que notre approche surpassait considérablement les méthodes actuelles de pointe sur deux grands jeux de données d'estimation de posture vidéo. Nous avons également exploré les cellules mémoire à l'intérieur des LSTM et fourni des éclairages sur la manière dont ce mécanisme pourrait bénéficier aux prédictions d'estimation de posture basées sur vidéo.