Apprentissage contrastif à partir de séquences squelettiques extrêmement augmentées pour la reconnaissance d'actions auto-supervisée

Ces dernières années, l'apprentissage de représentation auto-supervisé pour la reconnaissance d'actions basée sur les squelettes a connu un développement grâce aux progrès des méthodes d'apprentissage par contraste. Les méthodes d'apprentissage par contraste existantes utilisent des augmentations normales pour construire des échantillons positifs similaires, ce qui limite la capacité d'explorer de nouveaux schémas de mouvement. Dans cet article, afin d'utiliser au mieux les schémas de mouvement introduits par des augmentations extrêmes, nous proposons un cadre d'apprentissage par contraste utilisant l'exploitation de l'information abondante pour la représentation auto-supervisée des actions (AimCLR). Tout d'abord, nous proposons des augmentations extrêmes et le module de suppression guidée par l'attention basée sur l'énergie (Energy-based Attention-guided Drop Module - EADM) pour obtenir des échantillons positifs diversifiés, ce qui apporte de nouveaux schémas de mouvement pour améliorer l'universalité des représentations apprises. Ensuite, puisque l'utilisation directe d'augmentations extrêmes peut ne pas améliorer les performances en raison des changements importants dans l'identité originale, nous proposons une perte minimisant la divergence distributionnelle double (Dual Distributional Divergence Minimization Loss - D$^3$M Loss) pour minimiser la divergence distributionnelle de manière plus douce. Troisièmement, nous proposons l'exploitation des voisins les plus proches (Nearest Neighbors Mining - NNM) pour étendre davantage les échantillons positifs et rendre le processus d'exploitation de l'information abondante plus raisonnable. Des expériences exhaustives sur les jeux de données NTU RGB+D 60, PKU-MMD et NTU RGB+D 120 ont montré que notre AimCLR peut significativement surpasser les méthodes les plus avancées actuellement disponibles sous divers protocoles d'évaluation, avec une qualité supérieure des représentations d'action observée. Notre code est disponible à l'adresse suivante : https://github.com/Levigty/AimCLR.