HyperAIHyperAI
il y a 11 jours

ReMoDiffuse : Modèle de diffusion de mouvement augmenté par la récupération

Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, Ziwei Liu
ReMoDiffuse : Modèle de diffusion de mouvement augmenté par la récupération
Résumé

La génération de mouvements 3D chez l’humain est essentielle pour l’industrie créative. Les avancées récentes s’appuient sur des modèles génératifs intégrant des connaissances spécifiques au domaine pour la génération de mouvements pilotée par le texte, permettant des progrès significatifs dans la capture des mouvements courants. Toutefois, les performances concernant des mouvements plus diversifiés restent insatisfaisantes. Dans ce travail, nous proposons ReMoDiffuse, un cadre de génération de mouvements basé sur un modèle de diffusion qui intègre un mécanisme de recherche pour affiner le processus de débruitage. ReMoDiffuse améliore la généralisation et la diversité de la génération de mouvements pilotée par le texte grâce à trois innovations clés : 1) une recherche hybride qui identifie des références pertinentes dans la base de données en tenant compte à la fois de la similarité sémantique et cinématique ; 2) un transformateur modulé sémantiquement qui absorbe sélectivement les connaissances récupérées, s’adaptant ainsi aux différences entre les échantillons récupérés et la séquence de mouvement cible ; 3) un mélange de conditions qui exploite de manière plus efficace la base de données de recherche pendant l’inférence, surmontant ainsi la sensibilité à l’échelle présente dans le guidance sans classificateur. Des expériences étendues démontrent que ReMoDiffuse surpasser les méthodes de pointe en équilibrant à la fois la cohérence texte-mouvement et la qualité du mouvement, notamment pour la génération de mouvements plus diversifiés.

ReMoDiffuse : Modèle de diffusion de mouvement augmenté par la récupération | Articles de recherche récents | HyperAI