MagDiff : Diffusion à Multi-Alignement pour la Génération et la Modification de Vidéo à Haute Fidélité

Le modèle de diffusion est largement utilisé tant pour la génération de vidéos que pour leur édition. Étant donné que chaque domaine présente ses propres problèmes spécifiques à la tâche, il est difficile de concevoir un seul modèle de diffusion capable de réaliser simultanément les deux tâches. Bien que les modèles de diffusion vidéo s'appuyant principalement sur des promts textuels puissent être adaptés pour unifier ces deux tâches, ils manquent d’une capacité élevée à aligner les modalités hétérogènes entre texte et image, ce qui entraîne diverses problèmes d’alignement. Dans ce travail, nous proposons pour la première fois une diffusion unifiée à multi-alignement, nommée MagDiff, destinée à la fois à la génération de vidéos de haute fidélité et à leur édition. Le modèle MagDiff introduit trois types d’alignements : l’alignement piloté par le sujet, l’alignement adaptatif des promts, et l’alignement de haute fidélité. En particulier, l’alignement piloté par le sujet est proposé afin de concilier les promts image et texte, servant de base unifiée pour le modèle génératif des deux tâches. L’alignement adaptatif des promts vise à mettre en évidence les forces respectives des alignements homogènes et hétérogènes en attribuant des poids différents aux promts image et texte. Quant à l’alignement de haute fidélité, il est conçu pour améliorer davantage la fidélité de la génération et de l’édition vidéo en intégrant l’image du sujet comme entrée supplémentaire du modèle. Les résultats expérimentaux sur quatre benchmarks montrent que notre méthode surpasser les approches précédentes sur chacune des deux tâches.