Command Palette
Search for a command to run...
Self-Forcing++: Ein Schritt hin zu hochwertiger Videogenerierung im Minutenbereich
Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

Abstract
Diffusionsmodelle haben die Generierung von Bildern und Videos revolutioniert und dabei eine bisher ungekannte visuelle Qualität erreicht. Ihre Abhängigkeit von Transformer-Architekturen führt jedoch zu prohibitiv hohen Rechenkosten, insbesondere wenn die Generierung auf lange Videos erweitert wird. Kürzlich wurden autoregressive Ansätze für die Generierung langer Videos erforscht, typischerweise durch Distillation von kurzfristigen, bidirektionalen Lehrmodellen. Dennoch führt die Extrapolation der Schülermodelle über ihren Trainingshorizont hinaus, da die Lehrmodelle selbst keine langen Videos synthetisieren können, häufig zu einer starken Qualitätsverschlechterung, die durch die akkumulierende Fehlerbildung im kontinuierlichen Latentraum verursacht wird. In diesem Artikel präsentieren wir einen einfachen, aber wirksamen Ansatz, um die Qualitätsverschlechterung bei der Generierung von langen Videos zu reduzieren, ohne dass eine Supervision durch Lehrmodelle für lange Videos oder eine Neutrainierung auf langen Videodatensätzen erforderlich ist. Unser Ansatz basiert auf der Ausnutzung des reichen Wissens der Lehrmodelle, um das Schülermodell durch aus selbstgenerierten langen Videos stammende, zufällig ausgewählte Segmente zu leiten. Unser Verfahren gewährleistet dabei eine zeitliche Konsistenz und ermöglicht es, die Video-Länge um bis zu das 20-fache über die Fähigkeiten des Lehrmodells hinaus zu verlängern, wobei gängige Probleme wie Überbelichtung oder Fehlerakkumulation vermieden werden, ohne dass überlappende Frames erneut berechnet werden müssen, wie dies bei früheren Methoden der Fall war. Bei Skalierung der Rechenressourcen zeigt unsere Methode die Fähigkeit, Videos von bis zu 4 Minuten und 15 Sekunden zu generieren – das entspricht 99,9 % der maximalen Spannweite, die durch die Positionsembedding unseres Basismodells unterstützt wird, und ist mehr als 50-mal länger als die des Basismodells. Experimente an etablierten Benchmarks sowie an unserem vorgeschlagenen verbesserten Benchmark zeigen, dass unser Ansatz sowohl hinsichtlich Fidelität als auch Konsistenz deutlich über den Basismethoden liegt. Eine Demonstration unserer langen Videos finden Sie unter: https://self-forcing-plus-plus.github.io/
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.