HyperAIHyperAI
il y a 2 mois

SMPLer-X : Échelle de l’estimation expressive de la pose et de la forme humaine

Cai, Zhongang ; Yin, Wanqi ; Zeng, Ailing ; Wei, Chen ; Sun, Qingping ; Wang, Yanjun ; Pang, Hui En ; Mei, Haiyi ; Zhang, Mingyuan ; Zhang, Lei ; Loy, Chen Change ; Yang, Lei ; Liu, Ziwei
SMPLer-X : Échelle de l’estimation expressive de la pose et de la forme humaine
Résumé

L'estimation expressive de la posture et de la forme humaines (EHPS) unifie la capture de mouvement du corps, des mains et du visage, avec de nombreuses applications. Malgré les progrès encourageants, les méthodes actuelles de pointe dépendent encore largement d'un ensemble restreint de jeux de données d'entraînement. Dans ce travail, nous explorons l'évolution à grande échelle de l'EHPS vers le premier modèle fondation généraliste (nommé SMPLer-X), en utilisant jusqu'à ViT-Huge comme backbone et en entraînant sur jusqu'à 4,5 millions d'instances provenant de sources de données diverses. Avec ces grandes quantités de données et le modèle volumineux, SMPLer-X montre des performances solides sur diverses batteries de tests et une excellente transférabilité même dans des environnements inconnus.1) Pour l'évolution des données, nous menons une enquête systématique sur 32 jeux de données EHPS, couvrant une large gamme de scénarios que aucun modèle formé sur un seul jeu de données ne peut gérer. Plus important encore, en tirant parti des connaissances acquises au cours du processus d'évaluation approfondie, nous optimisons notre schéma d'entraînement et sélectionnons les jeux de données qui permettent un bond significatif dans les capacités EHPS.2) Pour l'évolution du modèle, nous utilisons des transformateurs visuels pour étudier la loi d'évolution des tailles de modèles en EHPS. De plus, notre stratégie d'affinage transforme SMPLer-X en modèles spécialisés, leur permettant d'atteindre des améliorations supplémentaires des performances. Notamment, notre modèle fondation SMPLer-X fournit constamment des résultats à la pointe sur sept benchmarks tels qu'AGORA (107,2 mm NMVE), UBody (57,4 mm PVE), EgoBody (63,6 mm PVE) et EHF (62,3 mm PVE sans affinage).Page d'accueil : https://caizhongang.github.io/projects/SMPLer-X/

SMPLer-X : Échelle de l’estimation expressive de la pose et de la forme humaine | Articles de recherche récents | HyperAI