HyperAIHyperAI
il y a 17 jours

Attention croisée de modalités désenchevêtrées pour la reconstruction de maillage 3D humain avec des Transformers

Junhyeong Cho, Kim Youwang, Tae-Hyun Oh
Attention croisée de modalités désenchevêtrées pour la reconstruction de maillage 3D humain avec des Transformers
Résumé

Les architectures de transformateurs encodeurs ont récemment atteint des résultats de pointe dans la reconstruction 3D de maillages humains à partir d’une seule image, mais elles nécessitent un grand nombre de paramètres et des calculs coûteux. En raison de la forte charge mémoire et de la lenteur du temps de déduction, il est difficile de déployer ces modèles dans des applications pratiques. Dans cet article, nous proposons une nouvelle architecture de transformateur encodeur-décodage pour la reconstruction 3D de maillages humains à partir d’une image unique, nommée FastMETRO. Nous identifions que le goulot d’étranglement de performance des transformateurs basés sur l’encodeur provient de la conception des tokens, qui introduit des interactions complexes entre les tokens d’entrée. En décomposant ces interactions grâce à une architecture encodeur-décodage, notre modèle requiert significativement moins de paramètres et un temps de déduction plus court. Par ailleurs, nous intégrons des connaissances a priori sur les relations morphologiques du corps humain via des masques d’attention et des opérations de suréchantillonnage du maillage, ce qui accélère la convergence tout en améliorant la précision. FastMETRO améliore le compromis entre précision et efficacité (Pareto-front), et dépasse clairement les méthodes basées sur l’image sur les jeux de données Human3.6M et 3DPW. En outre, nous validons sa capacité de généralisation sur le jeu de données FreiHAND.

Attention croisée de modalités désenchevêtrées pour la reconstruction de maillage 3D humain avec des Transformers | Articles de recherche récents | HyperAI