Apprentissage d'actions contrastif basé sur un squelette amélioré avec LSTM à momentum pour la reconnaissance d'actions non supervisée

La reconnaissance d'actions à partir de données squelettiques 3D est un sujet émergent et important ces dernières années. La plupart des méthodes existantes extraient soit des descripteurs conçus manuellement, soit apprennent des représentations d'actions par des paradigmes d'apprentissage supervisé nécessitant de grandes quantités de données étiquetées. Dans cet article, nous proposons pour la première fois un paradigme d'apprentissage contrastif d'actions nommé AS-CAL (Action Skeleton Contrastive Action Learning), capable d'utiliser différentes augmentations de données squelettiques non étiquetées pour apprendre des représentations d'actions de manière non supervisée.Plus précisément, nous proposons tout d'abord de contraster la similarité entre les instances augmentées (requête et clé) de la séquence squelettique d'entrée, qui sont transformées par plusieurs stratégies d'augmentation innovantes, afin d'apprendre les motifs d'action inhérents ("invariance de motif") aux différentes transformations du squelette. Deuxièmement, pour encourager l'apprentissage de l'invariance de motif avec des représentations d'action plus cohérentes, nous proposons un LSTM à momentum, mis en œuvre comme une moyenne mobile basée sur le momentum du codificateur de requête basé sur LSTM, pour coder la dynamique à long terme de la séquence clé. Troisièmement, nous introduisons une file d'attente pour stocker les clés encodées, ce qui permet à notre modèle de réutiliser flexiblement les clés précédentes et de construire un dictionnaire plus cohérent pour améliorer l'apprentissage contrastif. Enfin, en moyennant temporellement les états cachés des actions apprises par le codificateur de requête, une nouvelle représentation nommée Codage Contrastif d'Actions (CCA) est proposée pour représenter efficacement les actions humaines.Des expériences approfondies montrent que notre approche améliore généralement les méthodes conçues manuellement existantes de 10 à 50 % en termes de précision top-1 et qu'elle peut atteindre des performances comparables ou même supérieures à celles de nombreuses méthodes d'apprentissage supervisé.