Apprentissage contrastif dépendant des Actionlets pour la reconnaissance non supervisée d’actions basée sur les squelettes

Le paradigme de pré-entraînement auto-supervisé a connu un grand succès dans la reconnaissance d’actions basée sur les squelettes. Toutefois, ces méthodes traitent de manière équivalente les parties en mouvement et les parties statiques, sans intégrer de conception adaptative aux différentes régions, ce qui nuit négativement à la précision de la reconnaissance d’actions. Pour permettre un modélisation adaptative des deux types de parties, nous proposons une méthode de apprentissage contrastif dépendant des actionlets (ActCLR). L’actionlet, défini comme un sous-ensemble discriminant du squelette humain, permet une décomposition efficace des régions en mouvement afin d’améliorer le modélisation des actions. Plus précisément, en contrastant les données squelettiques avec une ancre statique dépourvue de mouvement, nous extrayons de manière non supervisée la région en mouvement des données squelettiques, qui constitue l’actionlet. Ensuite, centré sur l’actionlet, nous construisons une méthode d’adaptation dynamique des transformations des données. Des transformations différentes sont appliquées aux régions actionlets et non-actionlets afin d’introduire davantage de diversité tout en préservant leurs caractéristiques propres. Par ailleurs, nous proposons une méthode de pooling de caractéristiques consciente du sens, permettant de construire des représentations de caractéristiques de manière distincte entre les régions en mouvement et les régions statiques. Des expériences étendues sur les bases NTU RGB+D et PKUMMD montrent que la méthode proposée atteint des performances remarquables en reconnaissance d’actions. Des visualisations et des expériences quantitatives supplémentaires démontrent l’efficacité de notre approche. Le site web du projet est disponible à l’adresse suivante : https://langlandslin.github.io/projects/ActCLR/