Détection et classification en temps réel des gestes de la main à l'aide de réseaux neuronaux convolutionnels

La reconnaissance en temps réel des gestes de la main dynamiques à partir de flux vidéo est une tâche complexe pour plusieurs raisons : (i) il n'y a pas d'indication claire du début et de la fin d'un geste dans la vidéo, (ii) les gestes effectués ne doivent être reconnus qu'une seule fois, et (iii) l'architecture complète doit être conçue en tenant compte du budget mémoire et énergétique. Dans cette étude, nous abordons ces défis en proposant une structure hiérarchique permettant aux architectures de réseaux neuronaux convolutifs (CNN) fonctionnant hors ligne d'opérer efficacement en ligne grâce à l'approche par fenêtre glissante. L'architecture proposée comprend deux modèles : (1) un détecteur, qui est une architecture CNN légère destinée à détecter les gestes, et (2) un classifieur, qui est un CNN profond chargé de classifier les gestes détectés. Pour évaluer les activations uniques des gestes détectés, nous suggérons d'utiliser la distance de Levenshtein comme métrique d'évaluation, car elle peut mesurer simultanément les mauvaises classifications, les détections multiples et les détections manquantes. Nous avons évalué notre architecture sur deux jeux de données publiquement disponibles - EgoGesture et le jeu de données des gestes de la main dynamiques NVIDIA - qui nécessitent la détection et la classification temporelles des gestes effectués. Le modèle ResNeXt-101, utilisé comme classifieur, atteint une précision de classification hors ligne record de 94,04 % et 83,82 % pour la modalité profondeur sur les benchmarks EgoGesture et NVIDIA, respectivement. En ce qui concerne la détection et la classification en temps réel, nous obtenons des détections précoces notables tout en réalisant des performances proches de celles obtenues en mode hors ligne. Les codes source et les modèles pré-entraînés utilisés dans cette étude sont librement accessibles au public.