PREDICT & CLUSTER : Reconnaissance d'actions non supervisée basée sur le squelette

Nous proposons un système novateur pour la reconnaissance d'actions non supervisée basée sur le squelette. Étant donné des séquences de points clés du corps obtenues lors de divers mouvements, notre système associe ces séquences à des actions spécifiques. Notre système repose sur un réseau neuronal récurrent à encodeur-décodeur, où l'encodeur apprend une représentation de caractéristiques séparable au sein de ses états cachés en formant le modèle à effectuer une tâche de prédiction. Nous montrons que selon ce type d'entraînement non supervisé, le décodeur et l'encodeur s'auto-organisent leurs états cachés dans un espace de caractéristiques qui regroupe les mouvements similaires dans le même cluster et les mouvements distincts dans des clusters éloignés.Les méthodes actuelles de pointe pour la reconnaissance d'actions sont fortement supervisées, c'est-à-dire qu'elles reposent sur la fourniture d'étiquettes pour l'entraînement. Des méthodes non supervisées ont été proposées, mais elles nécessitent des entrées de caméra et de profondeur (RGB+D) à chaque étape temporelle. En revanche, notre système est entièrement non supervisé, ne requiert aucune étiquette d'action à aucun stade et peut fonctionner uniquement avec des entrées de points clés du corps. De plus, notre méthode peut traiter différentes dimensions de points clés du corps (2D ou 3D) et inclure des indices supplémentaires décrivant les mouvements.Nous évaluons notre système sur trois benchmarks exhaustifs de reconnaissance d'actions comportant différents nombres d'actions et d'exemples. Nos résultats surpassent les méthodes précédentes non supervisées basées sur le squelette, ainsi que les méthodes non supervisées basées sur RGB+D lors des tests inter-vues, et atteignent des performances similaires aux méthodes supervisées basées sur le squelette malgré son caractère non supervisé.