Skeleton-DML : Apprentissage profond par métrique pour la reconnaissance d'actions en une seule prise basée sur le squelette

La reconnaissance d'actions en une seule prise permet l'identification de comportements humains à partir d'un seul exemple d'apprentissage. Cela peut influencer positivement l'interaction homme-robot en permettant au robot de réagir à des comportements précédemment inconnus. Nous formulons le problème de la reconnaissance d'actions en une seule prise comme un problème d'apprentissage profond de métriques et proposons une nouvelle représentation squelettique basée sur les images qui se distingue dans un contexte d'apprentissage de métriques. Ainsi, nous entraînons un modèle qui projette les représentations d'images dans un espace d'embedding. Dans cet espace, les actions similaires ont une faible distance euclidienne tandis que les actions dissimilaires ont une distance plus élevée. Le problème de la reconnaissance d'actions en une seule prise se transforme alors en une recherche du voisin le plus proche parmi un ensemble de références d'activités. Nous évaluons les performances de notre représentation proposée contre diverses autres représentations squelettiques basées sur les images. De plus, nous présentons une étude d’ablation qui montre l’influence de différentes tailles de vecteurs d’embedding, pertes et augmentations. Notre approche améliore l'état de l'art de 3,3 % pour le protocole de reconnaissance d'actions en une seule prise sur le jeu de données NTU RGB+D 120, sous un cadre d'apprentissage comparable. Avec des augmentations supplémentaires, notre résultat s'est amélioré de plus de 7,7 %.