HyperAIHyperAI

Command Palette

Search for a command to run...

Les prédicteurs de mouvement masqués sont de puissants apprenants de représentation d’action 3D

Yunyao Mao¹ Jiajun Deng³ Wengang Zhou¹,²,* Yao Fang⁴ Wanli Ouyang³ Houqiang Li¹,²,*

Résumé

Dans le domaine de la reconnaissance d'actions humaines en 3D, la quantité limitée de données supervisées rend difficile l'exploitation pleine et entière du potentiel de modélisation des réseaux puissants tels que les transformers. Par conséquent, les chercheurs se sont activement penchés sur l'investigation de stratégies efficaces de pré-entraînement auto-supervisé. Dans cette étude, nous démontrons que, plutôt que de suivre la tâche prétexte courante consistant à effectuer une reconstruction auto-composante masquée des articulations humaines, la modélisation explicite du mouvement contextuel est essentielle pour apprendre une représentation de caractéristiques efficace pour la reconnaissance d'actions en 3D. Formellement, nous proposons le cadre Masked Motion Prediction (MAMP). Plus précisément, le MAMP proposé prend en entrée une séquence squelettique spatio-temporelle masquée et prédit le mouvement temporel correspondant des articulations humaines masquées. Étant donné la forte redondance temporelle de la séquence squelettique, dans notre MAMP, les informations de mouvement servent également de priorité empirique de richesse sémantique qui guide le processus de masquage, favorisant ainsi une meilleure attention aux régions temporelles sémantiquement riches. Des expériences approfondies sur les jeux de données NTU-60, NTU-120 et PKU-MMD montrent que le pré-entraînement MAMP améliore considérablement les performances du transformer basique adopté, atteignant des résultats d'avant-garde sans recours à des techniques supplémentaires complexes. Le code source de notre MAMP est disponible à l'adresse https://github.com/maoyunyao/MAMP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les prédicteurs de mouvement masqués sont de puissants apprenants de représentation d’action 3D | Articles | HyperAI