HyperAIHyperAI

Command Palette

Search for a command to run...

MagDiff : Diffusion à Multi-Alignement pour la Génération et la Modification de Vidéo à Haute Fidélité

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

Résumé

Le modèle de diffusion est largement utilisé tant pour la génération de vidéos que pour leur édition. Étant donné que chaque domaine présente ses propres problèmes spécifiques à la tâche, il est difficile de concevoir un seul modèle de diffusion capable de réaliser simultanément les deux tâches. Bien que les modèles de diffusion vidéo s'appuyant principalement sur des promts textuels puissent être adaptés pour unifier ces deux tâches, ils manquent d’une capacité élevée à aligner les modalités hétérogènes entre texte et image, ce qui entraîne diverses problèmes d’alignement. Dans ce travail, nous proposons pour la première fois une diffusion unifiée à multi-alignement, nommée MagDiff, destinée à la fois à la génération de vidéos de haute fidélité et à leur édition. Le modèle MagDiff introduit trois types d’alignements : l’alignement piloté par le sujet, l’alignement adaptatif des promts, et l’alignement de haute fidélité. En particulier, l’alignement piloté par le sujet est proposé afin de concilier les promts image et texte, servant de base unifiée pour le modèle génératif des deux tâches. L’alignement adaptatif des promts vise à mettre en évidence les forces respectives des alignements homogènes et hétérogènes en attribuant des poids différents aux promts image et texte. Quant à l’alignement de haute fidélité, il est conçu pour améliorer davantage la fidélité de la génération et de l’édition vidéo en intégrant l’image du sujet comme entrée supplémentaire du modèle. Les résultats expérimentaux sur quatre benchmarks montrent que notre méthode surpasser les approches précédentes sur chacune des deux tâches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MagDiff : Diffusion à Multi-Alignement pour la Génération et la Modification de Vidéo à Haute Fidélité | Articles | HyperAI