HyperAIHyperAI
il y a 2 mois

Free-T2M : Modèle de diffusion text-to-motion amélioré par la fréquence avec perte de cohérence

Chen, Wenshuo ; Jia, Haozhe ; Lai, Songning ; Wu, Keming ; Xiao, Hongru ; Hu, Lijie ; Yue, Yutao
Free-T2M : Modèle de diffusion text-to-motion amélioré par la fréquence avec perte de cohérence
Résumé

Les progrès rapides dans la génération de mouvement à partir du texte ont été largement impulsés par les modèles de diffusion. Cependant, les méthodes existantes se concentrent uniquement sur la modélisation temporelle, négligeant ainsi l'analyse dans le domaine fréquentiel. Nous identifions deux phases clés dans le débruitage des mouvements : la phase de planification sémantique et la phase d'amélioration fine. Pour aborder ces phases efficacement, nous proposons le modèle de diffusion Fréquence enhancée texte-to-mouvement (Free-T2M), qui intègre des pertes de cohérence spécifiques à chaque phase, améliorant ainsi la robustesse des caractéristiques statiques et la précision fine. De nombreuses expériences montrent l'efficacité de notre méthode. Plus précisément, sur StableMoFusion, notre méthode réduit le FID (Fréchet Inception Distance) de 0,189 à 0,051, établissant une nouvelle performance SOTA (State Of The Art) au sein de l'architecture de diffusion. Ces résultats soulignent l'importance d'intégrer les connaissances du domaine fréquentiel dans la génération de mouvement à partir du texte pour obtenir des résultats plus précis et robustes.

Free-T2M : Modèle de diffusion text-to-motion amélioré par la fréquence avec perte de cohérence | Articles de recherche récents | HyperAI