HyperAIHyperAI
il y a 8 jours

Faire danser les pixels : génération vidéo à haute dynamique

Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li
Faire danser les pixels : génération vidéo à haute dynamique
Résumé

La création de vidéos à fort dynamisme, telles que des actions riches en mouvement ou des effets visuels complexes, constitue un défi majeur dans le domaine de l’intelligence artificielle. Malheureusement, les méthodes actuelles de pointe en génération vidéo, principalement axées sur la génération vidéo à partir de texte, ont tendance à produire des séquences vidéo avec des mouvements très limités, bien qu’elles préservent une fidélité élevée. Nous soutenons que se fier uniquement aux instructions textuelles est insuffisant et sous-optimal pour la génération vidéo. Dans cet article, nous proposons PixelDance, une nouvelle approche fondée sur les modèles de diffusion, qui intègre des instructions images pour les premières et dernières trames, combinées à des instructions textuelles pour la génération vidéo. Les résultats expérimentaux complets démontrent que PixelDance, entraîné sur des données publiques, présente une capacité nettement supérieure à la synthèse de vidéos comprenant des scènes complexes et des mouvements intriqués, établissant ainsi une nouvelle norme dans le domaine de la génération vidéo.

Faire danser les pixels : génération vidéo à haute dynamique | Articles de recherche récents | HyperAI