Aperçu des Nuages : Reconnaissance des Activités Humaines à Partir de Points de Caractéristiques Non Structurés

Nous proposons une méthode de reconnaissance d'activités humaines à partir de données RGB qui ne repose sur aucune information de posture pendant la phase de test et n'effectue pas explicitement de calculs de posture en interne. Au lieu de cela, un module d'attention visuelle apprend à prédire des séquences d'aperçus dans chaque image. Ces aperçus correspondent à des points d'intérêt dans la scène qui sont pertinents pour les activités classifiées. Aucune cohérence spatiale n'est imposée aux emplacements des aperçus, ce qui donne au module la liberté d'explorer différents points à chaque image et d'optimiser davantage le processus d'examen des informations visuelles. Le suivi et l'intégration séquentielle de ce type de données non structurées constituent un défi, que nous relevons en séparant l'ensemble des aperçus d'un ensemble de travailleurs récurrents chargés du suivi/reconnaissance. Ces travailleurs reçoivent les aperçus, effectuant conjointement le suivi du mouvement et la prédiction de l'activité. Les aperçus sont attribués doucement aux travailleurs, optimisant la cohérence des attributions dans l'espace, le temps et l'espace des caractéristiques grâce à un module mémoire externe. Aucune décision ferme n'est prise, c'est-à-dire que chaque point d'aperçu est attribué à tous les travailleurs existants, mais avec une importance différente. Nos méthodes surpassent les méthodes de pointe actuelles sur le plus grand ensemble de données disponible actuellement pour la reconnaissance d'activités humaines : le NTU RGB+D Dataset, ainsi que sur un ensemble de données plus petit pour la reconnaissance d'actions humaines : le Northwestern-UCLA Multiview Action 3D Dataset. Notre code est librement accessible sur https://github.com/fabienbaradel/glimpse_clouds.