Latente Video-Diffusionsmodelle für die hochauflösende Generierung langer Videos

Künstlich generierter Inhalt hat in letzter Zeit erhebliche Aufmerksamkeit erregt, doch die Synthese von foto-realistischen Videos bleibt weiterhin eine Herausforderung. Obwohl zahlreiche Ansätze auf Basis von GANs und autoregressiven Modellen unternommen wurden, erreichen die visuelle Qualität und die Länge generierter Videos nach wie vor nicht zufriedenstellende Ergebnisse. Diffusionsmodelle haben in jüngster Zeit bemerkenswerte Fortschritte gezeigt, erfordern jedoch erhebliche Rechenressourcen. Um dies zu adressieren, stellen wir leichtgewichtige Video-Diffusionsmodelle vor, die eine niederdimensionale 3D-Latentraum-Struktur nutzen und unter begrenztem Rechenaufwand signifikant bessere Leistungen als frühere Pixelraum-basierte Video-Diffusionsmodelle erzielen. Darüber hinaus schlagen wir eine hierarchische Diffusion im Latentraum vor, wodurch längere Videos mit mehr als tausend Frames erzeugt werden können. Um zusätzliche Leistungsabnahmen bei der Generierung langer Videos zu überwinden, führen wir bedingte Latentstörung und unbedingte Leitfunktion ein, die die akkumulierten Fehler während der Verlängerung der Video-Länge effektiv reduzieren. Umfangreiche Experimente auf kleinen Datensätzen verschiedener Kategorien zeigen, dass unser Framework realistischere und längere Videos erzeugt als frühere starke Baselines. Zudem demonstrieren wir die Überlegenheit unseres Ansatzes durch eine Erweiterung auf großskalige Text-zu-Video-Generierung. Unsere Code-Implementierung und Modelle werden öffentlich zugänglich gemacht.