Les prédicteurs de mouvement masqués sont de puissants apprenants de représentation d’action 3D

Dans le domaine de la reconnaissance d'actions humaines en 3D, la quantité limitée de données supervisées rend difficile l'exploitation pleine et entière du potentiel de modélisation des réseaux puissants tels que les transformers. Par conséquent, les chercheurs se sont activement penchés sur l'investigation de stratégies efficaces de pré-entraînement auto-supervisé. Dans cette étude, nous démontrons que, plutôt que de suivre la tâche prétexte courante consistant à effectuer une reconstruction auto-composante masquée des articulations humaines, la modélisation explicite du mouvement contextuel est essentielle pour apprendre une représentation de caractéristiques efficace pour la reconnaissance d'actions en 3D. Formellement, nous proposons le cadre Masked Motion Prediction (MAMP). Plus précisément, le MAMP proposé prend en entrée une séquence squelettique spatio-temporelle masquée et prédit le mouvement temporel correspondant des articulations humaines masquées. Étant donné la forte redondance temporelle de la séquence squelettique, dans notre MAMP, les informations de mouvement servent également de priorité empirique de richesse sémantique qui guide le processus de masquage, favorisant ainsi une meilleure attention aux régions temporelles sémantiquement riches. Des expériences approfondies sur les jeux de données NTU-60, NTU-120 et PKU-MMD montrent que le pré-entraînement MAMP améliore considérablement les performances du transformer basique adopté, atteignant des résultats d'avant-garde sans recours à des techniques supplémentaires complexes. Le code source de notre MAMP est disponible à l'adresse https://github.com/maoyunyao/MAMP.