Rendre le modèle de reconnaissance d’actions basé sur le squelette plus petit, plus rapide et meilleur

Bien que la reconnaissance d'actions basée sur le squelette ait connu un grand succès ces dernières années, la plupart des méthodes existantes souffrent d'une taille de modèle importante et d'une vitesse d'exécution lente. Pour atténuer ce problème, nous analysons les propriétés des séquences squelettiques afin de proposer un réseau à double caractéristique et double mouvement (Double-feature Double-motion Network, DD-Net) pour la reconnaissance d'actions basée sur le squelette. En utilisant une structure de réseau légère (c'est-à-dire 0,15 million de paramètres), DD-Net peut atteindre une vitesse extrêmement rapide, soit 3 500 images par seconde (FPS) sur une carte graphique (GPU), ou 2 000 FPS sur un processeur (CPU). Grâce à l'utilisation de caractéristiques robustes, DD-Net obtient des performances de pointe sur nos ensembles de données expérimentaux : SHREC (c'est-à-dire les actions de la main) et JHMDB (c'est-à-dire les actions du corps). Notre code sera publié avec cet article ultérieurement.