Apprentissage de modèles profonds et compacts pour la reconnaissance des gestes

Nous abordons le problème du développement d'un modèle compact et précis pour la reconnaissance de gestes à partir de vidéos dans un cadre d'apprentissage profond. À cet égard, nous proposons un modèle 3DCNN-LSTM conjoint qui est entraînable de bout en bout et qui s'est révélé mieux adapté pour capturer les informations dynamiques des actions. Cette solution atteint une précision proche de l'état de l'art sur le jeu de données ChaLearn, avec seulement la moitié de la taille du modèle. Nous explorons également des méthodes pour obtenir une représentation beaucoup plus compacte dans un cadre de distillation de connaissances suivi d'une compression de modèle. Le modèle final est inférieur à 1 Mo, soit moins d'un centième du modèle initial, avec une perte de précision de 7 %, et convient à la reconnaissance en temps réel des gestes sur les appareils mobiles.