Fg-T2M : Génération fine de mouvements humains pilotés par le texte via un modèle de diffusion

La génération de mouvements humains pilotés par texte en vision par ordinateur est à la fois significative et complexe. Toutefois, les méthodes actuelles sont limitées à la production de séquences de mouvement soit déterministes, soit imprécises, et échouent à contrôler efficacement les relations temporelles et spatiales nécessaires pour s’aligner sur une description textuelle donnée. Dans ce travail, nous proposons une méthode fine pour générer des séquences de mouvement humain conditionnelles de haute qualité, permettant une description textuelle précise. Notre approche repose sur deux composants clés : 1) un module assisté par la structure linguistique, qui construit des caractéristiques linguistiques précises et complètes afin d’exploiter pleinement l’information textuelle ; et 2) un module de raisonnement progressif conscient du contexte, qui apprend des caractéristiques sémantiques linguistiques locales et globales à partir de réseaux de neurones graphiques à différentes profondeurs, afin d’atteindre une inférence multi-étapes. Les expériences montrent que notre méthode surpasser les approches existantes de génération de mouvement pilotée par texte sur les jeux de données HumanML3D et KIT, et produit des mouvements visuellement plus conformes aux conditions textuelles.