Contraste Prototypique et Prédiction Inverse : Reconnaissance d'Actions Non Supervisée Basée sur le Squelette

Dans cet article, nous nous concentrons sur l'apprentissage non supervisé de représentations pour la reconnaissance d'actions basée sur les squelettes. Les approches existantes apprennent généralement des représentations d'actions par prédiction séquentielle, mais elles souffrent de l'incapacité à apprendre pleinement les informations sémantiques. Pour remédier à cette limitation, nous proposons un nouveau cadre nommé Prototypical Contrast and Reverse Prediction (PCRP), qui non seulement crée une prédiction séquentielle inverse pour apprendre des informations de bas niveau (par exemple, la posture corporelle à chaque image) et des modèles de haut niveau (par exemple, l'ordre du mouvement), mais aussi conçoit des prototypes d'actions pour encoder implicitement la similarité sémantique partagée entre les séquences. En général, nous considérons les prototypes d'actions comme des variables latentes et formulons PCRP comme une tâche d'espérance-maximisation. Plus précisément, PCRP fonctionne itérativement en exécutant (1) l'étape E consistant à déterminer la distribution des prototypes en regroupant l'encodage d'action provenant de l'encodeur, et (2) l'étape M consistant à optimiser l'encodeur en minimisant la perte ProtoMAE proposée, ce qui aide simultanément à rapprocher l'encodage d'action de son prototype assigné et à effectuer la tâche de prédiction inverse. De nombreuses expériences menées sur les jeux de données N-UCLA, NTU 60 et NTU 120 montrent que PCRP surpasse les méthodes non supervisées de pointe et atteint même des performances supérieures à certaines méthodes supervisées. Les codes sont disponibles sur https://github.com/Mikexu007/PCRP.