Command Palette
Search for a command to run...
GenCompositor: Generative Video Compositing mit Diffusion Transformer
Shuzhou Yang Xiaoyu Li Xiaodong Cun Guangzhi Wang Lingen Li Ying Shan Jian Zhang

Abstract
Video-Compositing kombiniert Aufnahmen aus der Live-Action, um Video-Produktionen zu erstellen, und stellt eine entscheidende Technik in der Videoproduktion und Filmgestaltung dar. Traditionelle Arbeitsabläufe erfordern einen hohen manuellen Aufwand und enge Zusammenarbeit von Experten, was zu langen Produktionszyklen und hohen personellen Kosten führt. Um dieses Problem zu lösen, automatisieren wir diesen Prozess mithilfe generativer Modelle, die wir generatives Video-Compositing nennen. Diese neue Aufgabe zielt darauf ab, Identitäts- und Bewegungsinformationen aus dem Vordergrundvideo adaptiv und interaktiv in das Zielvideo einzufügen, wodurch Nutzer die Größe, die Bewegungsbahn und weitere Attribute der dynamischen Elemente im finalen Video individuell anpassen können. Konkret haben wir einen neuartigen Diffusion Transformer (DiT)-Pipeline basierend auf dessen inhärenten Eigenschaften entworfen. Um die Konsistenz des Zielvideos vor und nach der Bearbeitung zu gewährleisten, haben wir einen leichtgewichtigen DiT-basierten Hintergrund-Präservationszweig mit maskierten Token-Injektion überarbeitet. Zur Übernahme dynamischer Elemente aus anderen Quellen wird ein DiT-Fusionsblock vorgeschlagen, der vollständige Selbst-Attention nutzt, zusammen mit einer einfachen, aber effektiven Vordergrund-Verbesserung für das Training. Darüber hinaus haben wir zur Fusion von Hintergrund- und Vordergrundvideos mit unterschiedlichen Layouts unter Benutzersteuerung eine neuartige Positionsembedding-Technik entwickelt, die als Extended Rotary Position Embedding (ERoPE) bezeichnet wird. Schließlich haben wir eine Datensammlung mit insgesamt 61.000 Video-Sets für unsere neue Aufgabe zusammengestellt, die als VideoComp bezeichnet wird. Diese Daten enthalten vollständige dynamische Elemente sowie hochwertige Zielvideos. Experimente zeigen, dass unsere Methode das generative Video-Compositing effektiv realisiert und gegenüber bestehenden Lösungen in Bezug auf Fidelität und Konsistenz übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.