VideoComposer: Kompositionale Video-Synthese mit Bewegungskontrollierbarkeit

Die Verfolgung von Kontrollierbarkeit als höherer Maßstab der visuellen Inhaltserstellung hat bemerkenswerte Fortschritte bei der anpassungsfähigen Bildsynthese hervorgebracht. Die Erzielung einer kontrollierbaren Videosynthese bleibt jedoch herausfordernd, bedingt durch die große Vielfalt an zeitlichen Dynamiken und die Anforderung an die konsistente zeitliche Kohärenz über mehrere Frames hinweg. Ausgehend vom Paradigma der kompositorischen Generierung präsentiert diese Arbeit VideoComposer, ein Ansatz, der es Benutzern ermöglicht, Videos flexibel unter Verwendung von textuellen Bedingungen, räumlichen Bedingungen und vor allem zeitlichen Bedingungen zu komponieren. Insbesondere berücksichtigt die Methode die spezifischen Eigenschaften von Videodaten, indem sie den Bewegungsvektor aus komprimierten Videos als expliziten Steuersignal einsetzt, um gezielt Hinweise zur zeitlichen Dynamik zu liefern. Darüber hinaus entwickeln wir einen Spatio-Temporal-Condition-Encoder (STC-Encoder), der als einheitliche Schnittstelle fungiert, um räumliche und zeitliche Beziehungen sequenzieller Eingaben effektiv zu integrieren. Dadurch kann das Modell zeitliche Bedingungen besser ausnutzen und somit eine höhere Konsistenz zwischen den Frames erreichen. Ausführliche experimentelle Ergebnisse zeigen, dass VideoComposer in verschiedenen Formen – beispielsweise durch Textbeschreibungen, Skizzenfolgen, Referenzvideos oder sogar einfach handgezeichnete Bewegungen – gleichzeitig räumliche und zeitliche Muster innerhalb eines synthetisierten Videos kontrollieren kann. Der Quellcode und die Modelle werden öffentlich unter https://videocomposer.github.io verfügbar sein.