EMAGE : Vers une génération unifiée et holistique des gestes paralangagiers grâce à la modélisation expressive des gestes masqués audio

Nous proposons EMAGE, un cadre permettant de générer des gestes corporels complets à partir d'audio et de gestes masqués, englobant les mouvements faciaux, locaux du corps, des mains et globaux. Pour y parvenir, nous introduisons d'abord BEAT2 (BEAT-SMPLX-FLAME), un nouveau jeu de données holistique au niveau des maillages pour les gestes accompagnant la parole. BEAT2 combine un modèle SMPL-X du corps avec des paramètres FLAME pour la tête et affine davantage la modélisation des mouvements de la tête, du cou et des doigts, offrant ainsi un ensemble de données capturées en 3D de haute qualité standardisé pour la communauté. EMAGE utilise des a priori sur les gestes corporels masqués pendant l'entraînement afin d'améliorer les performances d'inférence. Il implique une Transformer Masquée Audio-Geste, facilitant l'entraînement conjoint sur la génération audio-geste et la reconstruction de gestes masqués pour encoder efficacement les indices audio et gestuels du corps. Les indices corporels encodés issus des gestes masqués sont ensuite utilisés séparément pour générer les mouvements faciaux et corporels. De plus, EMAGE fusionne de manière adaptative les caractéristiques de la parole provenant du rythme et du contenu de l'audio et utilise quatre VQ-VAEs compositionnels pour améliorer la fidélité et la diversité des résultats. Les expériences montrent que EMAGE génère des gestes holistiques avec des performances d'avant-garde et est flexible dans l'acceptation d'entrées gestuelles spatiales-temporelles prédéfinies, produisant des résultats complets synchronisés avec l'audio. Notre code et notre jeu de données sont disponibles à l'adresse suivante : https://pantomatrix.github.io/EMAGE/