Make-An-Animation : Génération à grande échelle de mouvements 3D humains conditionnels par texte

La génération de mouvements humains guidée par texte suscite un intérêt croissant en raison de ses applications majeures dans les domaines de l’animation et de la robotique. Récemment, l’application des modèles de diffusion à la génération de mouvements a permis d’améliorer significativement la qualité des mouvements synthétisés. Toutefois, les approches existantes sont limitées par leur dépendance à des jeux de données de capture de mouvement relativement de petite taille, ce qui entraîne une performance médiocre face à des prompts plus diversifiés et réels (in-the-wild). Dans cet article, nous introduisons Make-An-Animation, un modèle de génération de mouvements humains conditionné par texte, qui apprend des poses et des prompts plus variés à partir de grands jeux de données image-texte, permettant une amélioration notable de la performance par rapport aux travaux antérieurs. Make-An-Animation est entraîné en deux étapes : premièrement, nous entraînons le modèle sur un jeu de données de grande taille, soigneusement sélectionné, composé de paires (texte, pseudo-posture statique) extraites de jeux de données image-texte ; deuxièmement, nous effectuons un fin-tuning sur des données de capture de mouvement, en ajoutant des couches supplémentaires pour modéliser la dimension temporelle. Contrairement aux modèles de diffusion antérieurs pour la génération de mouvements, Make-An-Animation utilise une architecture U-Net similaire à celle des modèles récents de génération vidéo à partir de texte. Une évaluation humaine de la réalisme des mouvements et de leur alignement avec le texte d’entrée montre que notre modèle atteint un niveau d’expertise de pointe dans la tâche de génération de mouvements à partir de texte.