HyperAIHyperAI
vor 7 Tagen

LongVie: multimodale Steuerung der kontrollierten Erzeugung ultra-langer Videos

Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
LongVie: multimodale Steuerung der kontrollierten Erzeugung ultra-langer Videos
Abstract

Kontrollierbare Generierung ultra-langer Videos ist eine grundlegende, jedoch herausfordernde Aufgabe. Obwohl bestehende Methoden für kurze Clips effektiv sind, stoßen sie aufgrund von Problemen wie zeitlicher Inkonsistenz und visueller Degradation bei der Skalierung an ihre Grenzen. In dieser Arbeit untersuchen wir zunächst drei zentrale Faktoren, die diese Herausforderungen beeinflussen: getrennte Rauschinitialisierung, unabhängige Normalisierung von Steuersignalen sowie die Beschränkungen einzelner Modaltitäten bei der Steuerung. Um diese Probleme zu bewältigen, stellen wir LongVie vor – einen end-to-end autoregressiven Rahmen für kontrollierbare Generierung langer Videos. LongVie führt zwei zentrale Entwürfe ein, um zeitliche Konsistenz sicherzustellen: 1) eine einheitliche Rauschinitialisierungsstrategie, die eine konsistente Generierung über mehrere Clips hinweg gewährleistet, sowie 2) eine globale Normalisierung von Steuersignalen, die eine Ausrichtung im Steuerungsraum über den gesamten Videobereich hinweg erzwingt. Zur Minderung der visuellen Degradation setzt LongVie 3) einen multimodalen Steuerungsansatz ein, der sowohl dichte (z. B. Tiefenkarten) als auch spärliche (z. B. Gelenkpunkte) Steuersignale integriert, ergänzt durch 4) eine degenerationsbewusste Trainingsstrategie, die die Beiträge der verschiedenen Modalitäten zeitlich adaptiv ausbalanciert, um die visuelle Qualität zu bewahren. Zudem führen wir LongVGenBench ein – eine umfassende Benchmark mit 100 hochauflösenden Videos aus unterschiedlichen realen und synthetischen Umgebungen, wobei jedes Video eine Dauer von über einer Minute aufweist. Ausführliche Experimente zeigen, dass LongVie eine state-of-the-art-Leistung in Bezug auf langreichweitige Kontrollierbarkeit, Konsistenz und Qualität erzielt.