HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

GenCompositor: Generative Video Compositing mit Diffusion Transformer

Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

GenCompositor: Generative Video Compositing mit Diffusion Transformer

Abstract

Video-Compositing kombiniert Aufnahmen aus der Live-Action, um Video-Produktionen zu erstellen, und stellt eine entscheidende Technik in der Videoproduktion und Filmgestaltung dar. Traditionelle Arbeitsabläufe erfordern einen hohen manuellen Aufwand und enge Zusammenarbeit von Experten, was zu langen Produktionszyklen und hohen personellen Kosten führt. Um dieses Problem zu lösen, automatisieren wir diesen Prozess mithilfe generativer Modelle, die wir generatives Video-Compositing nennen. Diese neue Aufgabe zielt darauf ab, Identitäts- und Bewegungsinformationen aus dem Vordergrundvideo adaptiv und interaktiv in das Zielvideo einzufügen, wodurch Nutzer die Größe, die Bewegungsbahn und weitere Attribute der dynamischen Elemente im finalen Video individuell anpassen können. Konkret haben wir einen neuartigen Diffusion Transformer (DiT)-Pipeline basierend auf dessen inhärenten Eigenschaften entworfen. Um die Konsistenz des Zielvideos vor und nach der Bearbeitung zu gewährleisten, haben wir einen leichtgewichtigen DiT-basierten Hintergrund-Präservationszweig mit maskierten Token-Injektion überarbeitet. Zur Übernahme dynamischer Elemente aus anderen Quellen wird ein DiT-Fusionsblock vorgeschlagen, der vollständige Selbst-Attention nutzt, zusammen mit einer einfachen, aber effektiven Vordergrund-Verbesserung für das Training. Darüber hinaus haben wir zur Fusion von Hintergrund- und Vordergrundvideos mit unterschiedlichen Layouts unter Benutzersteuerung eine neuartige Positionsembedding-Technik entwickelt, die als Extended Rotary Position Embedding (ERoPE) bezeichnet wird. Schließlich haben wir eine Datensammlung mit insgesamt 61.000 Video-Sets für unsere neue Aufgabe zusammengestellt, die als VideoComp bezeichnet wird. Diese Daten enthalten vollständige dynamische Elemente sowie hochwertige Zielvideos. Experimente zeigen, dass unsere Methode das generative Video-Compositing effektiv realisiert und gegenüber bestehenden Lösungen in Bezug auf Fidelität und Konsistenz übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GenCompositor: Generative Video Compositing mit Diffusion Transformer | Forschungsarbeiten | HyperAI