HyperAIHyperAI

Command Palette

Search for a command to run...

Free-T2M : Modèle de diffusion text-to-motion amélioré par la fréquence avec perte de cohérence

Chen Wenshuo ; Jia Haozhe ; Lai Songning ; Wu Keming ; Xiao Hongru ; Hu Lijie ; Yue Yutao

Résumé

Les progrès rapides dans la génération de mouvement à partir du texte ont été largement impulsés par les modèles de diffusion. Cependant, les méthodes existantes se concentrent uniquement sur la modélisation temporelle, négligeant ainsi l'analyse dans le domaine fréquentiel. Nous identifions deux phases clés dans le débruitage des mouvements : la phase de planification sémantique et la phase d'amélioration fine. Pour aborder ces phases efficacement, nous proposons le modèle de diffusion Fréquence enhancée texte-to-mouvement (Free-T2M), qui intègre des pertes de cohérence spécifiques à chaque phase, améliorant ainsi la robustesse des caractéristiques statiques et la précision fine. De nombreuses expériences montrent l'efficacité de notre méthode. Plus précisément, sur StableMoFusion, notre méthode réduit le FID (Fréchet Inception Distance) de 0,189 à 0,051, établissant une nouvelle performance SOTA (State Of The Art) au sein de l'architecture de diffusion. Ces résultats soulignent l'importance d'intégrer les connaissances du domaine fréquentiel dans la génération de mouvement à partir du texte pour obtenir des résultats plus précis et robustes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp