DeepGRU : Outil de Reconnaissance Profonde des Gestes

Nous proposons DeepGRU, un nouveau modèle de réseau neuronal profond (end-to-end) inspiré des récentes avancées en apprentissage profond pour la reconnaissance de gestes et d'actions, qui est optimisé et indépendant du périphérique. DeepGRU, qui utilise uniquement des données brutes de squelette, de posture ou de vecteur, est facile à comprendre, à implémenter et à entraîner, tout en obtenant des résultats d'avant-garde sur des jeux de données complexes. Au cœur de notre méthode se trouve une série d'unités récurrentes à portes (GRU) empilées, deux couches entièrement connectées et un nouveau modèle d'attention globale. Nous évaluons notre méthode sur sept jeux de données publiquement disponibles, contenant différents nombres d'échantillons et couvrant une large gamme d'interactions (corps entier, multi-acteurs, gestes de la main, etc.). Dans tous les cas sauf un, nous surpassons les méthodes basées sur la posture les plus performantes actuellement disponibles. Par exemple, nous obtenons une précision de reconnaissance de 84,9 % et 92,3 % respectivement sur les tests inter-sujets et inter-vues du jeu de données NTU RGB+D, ainsi qu'une précision de reconnaissance de 100 % sur le jeu de données UT-Kinect. Bien que DeepGRU fonctionne bien sur des grands jeux de données avec beaucoup d'échantillons d'entraînement, nous montrons qu'il peut également surpasser les méthodes traditionnelles spécifiquement conçues pour les petits ensembles d'entraînement même en l'absence d'un grand nombre d'échantillons d'entraînement et avec seulement quatre échantillons par classe. Enfin, nous démontrons que même sans matériel puissant et en utilisant uniquement le CPU, notre méthode peut encore être entraînée en moins de 10 minutes sur des jeux de données à petite échelle, ce qui la rend particulièrement attractive pour le prototypage rapide et le développement d'applications.