HyperAIHyperAI
il y a 17 jours

BEAT : Un ensemble de données multimodal à grande échelle sémantique et émotionnelle pour la synthèse de gestes conversationnels

Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng
BEAT : Un ensemble de données multimodal à grande échelle sémantique et émotionnelle pour la synthèse de gestes conversationnels
Résumé

L’obtention de gestes conversationnels synthétisés réalistes, vivants et proches de ceux des humains, conditionnés par des données multimodales, reste un problème non résolu en raison du manque de jeux de données disponibles, de modèles adaptés et de métriques d’évaluation standardisées. Pour remédier à ce défaut, nous proposons le jeu de données Body-Expression-Audio-Text (BEAT), qui présente : i) 76 heures de données multimodales de haute qualité, capturées à partir de 30 locuteurs exprimant huit émotions différentes et parlant quatre langues distinctes ; ii) 32 millions d’annotations au niveau des images (frame-level) relatives à l’émotion et à la pertinence sémantique. L’analyse statistique effectuée sur BEAT met en évidence une corrélation entre les gestes conversationnels et les expressions faciales, les émotions, ainsi que le sens du discours, au-delà des corrélations déjà connues avec l’audio, le texte et l’identité du locuteur. À partir de cette observation, nous proposons un modèle de référence, le Cascaded Motion Network (CaMN), basé sur une architecture en cascade intégrant les six modalités. Pour évaluer la pertinence sémantique, nous introduisons une métrique, le Semantic Relevance Gesture Recall (SRGR). Des expériences qualitatives et quantitatives démontrent la validité de cette métrique, la qualité des données d’entraînement et les performances de pointe du modèle de référence. À notre connaissance, BEAT constitue le plus grand jeu de données de capture de mouvement dédié à l’étude des gestes humains, pouvant contribuer à divers domaines de recherche, notamment la synthèse contrôlable de gestes, l’analyse cross-modale et la reconnaissance émotionnelle des gestes. Les données, le code source et le modèle sont accessibles à l’adresse suivante : https://pantomatrix.github.io/BEAT/.