Réseaux de Neurones Récurrents Adaptatifs à la Vue pour une Reconnaissance d'Actions Humaines à Haute Performance à Partir de Données de Squelette

La reconnaissance d'actions humaines basée sur le squelette a récemment suscité un intérêt croissant en raison de la popularité des données squelettiques 3D. Un défi majeur réside dans les grandes variations de vue dans les actions humaines capturées. Nous proposons un nouveau schéma d'adaptation de vue pour réguler automatiquement les points de vue d'observation au cours de l'exécution d'une action. Au lieu de repositionner les squelettes selon un critère préétabli par l'homme, nous avons conçu un réseau neuronal récurrent (RNN) à adaptation de vue avec une architecture LSTM, ce qui permet au réseau lui-même de s'adapter aux points de vue d'observation les plus appropriés, de manière end-to-end. Des analyses expérimentales approfondies montrent que le modèle RNN à adaptation de vue proposé vise à (1) transformer les squelettes de différentes vues en des points de vue beaucoup plus cohérents et (2) maintenir la continuité de l'action plutôt que de transformer chaque image en la même position avec la même orientation corporelle. Notre modèle réalise une amélioration significative par rapport aux approches les plus avancées sur trois jeux de données de référence.