Behalten Sie Ihre eigene Korrelation bei: Ein Rauschprior für Videodiffusionsmodelle

Trotz erheblicher Fortschritte bei der Erzeugung hochwertiger Bilder mittels Diffusionsmodelle befindet sich die Synthese von animierten Bildfolgen, die sowohl fotorealistisch als auch zeitlich konsistent sind, noch in den Anfängen. Während für die Bildgenerierung bereits kommerziell erhältliche Datensätze mit Billionen von Bildern zur Verfügung stehen, ist die Sammlung von Video-Daten in vergleichbarer Skalierung weiterhin herausfordernd. Zudem ist die Trainingskosten für Video-Diffusionsmodelle deutlich höher als die für ihre Bilddiffusions-Entsprechungen. In dieser Arbeit untersuchen wir das Feintuning eines vortrainierten Bilddiffusionsmodells mit Videodaten als praktikable Lösung für die Video-Synthese-Aufgabe. Wir stellen fest, dass eine naive Erweiterung des Bilddiffusions-Rauschpräferenzmodells auf den Videobereich zu suboptimaler Leistung führt. Durch eine sorgfältig entworfene Videorausträgerpräferenz erreichen wir hingegen eine erheblich bessere Leistung. Umfangreiche experimentelle Validierungen zeigen, dass unser Modell, Preserve Your Own Correlation (PYoCo), state-of-the-art (SOTA) Ergebnisse im zero-shot Text-zu-Video-Task auf den Benchmarks UCF-101 und MSR-VTT erzielt. Zudem erreicht es SOTA-Qualität bei der Video-Generierung auf dem kleinskaligen UCF-101-Benchmark mit einem Modell, das nur ein Zehntel der Größe des vorherigen Standes der Technik hat und signifikant weniger Rechenleistung erfordert.