HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

GenCompositor : composition vidéo générative avec Transformer à diffusion

Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

GenCompositor : composition vidéo générative avec Transformer à diffusion

Résumé

La composition vidéo combine des prises de vue réelles pour produire des vidéos, constituant une technique essentielle dans la création vidéo et la production cinématographique. Les pipelines traditionnels nécessitent des efforts manuels importants et une collaboration d’experts, entraînant des cycles de production longs et des coûts élevés en main-d’œuvre. Pour résoudre ce problème, nous automatisons ce processus à l’aide de modèles génératifs, appelé composition vidéo générative. Cette nouvelle tâche vise à injecter de manière adaptative, de manière interactive, les informations d’identité et de mouvement de la vidéo en premier plan dans la vidéo cible, permettant aux utilisateurs de personnaliser la taille, la trajectoire du mouvement et d’autres attributs des éléments dynamiques intégrés dans la vidéo finale. Plus précisément, nous avons conçu une nouvelle chaîne de traitement basée sur un Transformer de diffusion (DiT), exploitant ses propriétés intrinsèques. Pour préserver la cohérence de la vidéo cible avant et après édition, nous avons révisé une branche légère de préservation du fond basée sur DiT, en utilisant une injection de jetons masqués. En vue d’intégrer des éléments dynamiques provenant d’autres sources, nous proposons un bloc de fusion DiT utilisant une attention auto-complète, accompagné d’une augmentation du premier plan simple mais efficace pour l’entraînement. Par ailleurs, pour fusionner des vidéos de fond et de premier plan présentant des dispositions différentes selon le contrôle utilisateur, nous avons développé une nouvelle embedding de position, nommée Extended Rotary Position Embedding (ERoPE). Enfin, nous avons constitué un jeu de données comprenant 61 000 paires de vidéos pour cette nouvelle tâche, intitulé VideoComp. Ce jeu de données inclut des éléments dynamiques complets et des vidéos cibles de haute qualité. Les expériences montrent que notre méthode réalise efficacement la composition vidéo générative, surpassant les solutions existantes en fidélité et en cohérence.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GenCompositor : composition vidéo générative avec Transformer à diffusion | Articles de recherche | HyperAI