vor 2 Monaten

Video-Diffusionsmodelle

Jonathan Ho; Tim Salimans; Alexey Gritsenko; William Chan; Mohammad Norouzi; David J. Fleet

Abstract

Die Erstellung zeitlich kohärenter hochwertiger Videos ist ein wichtiger Meilenstein in der Forschung zu generativen Modellen. Wir machen Fortschritte in Richtung dieses Meilensteins, indem wir ein Diffusionsmodell für die Videogenerierung vorschlagen, das sehr vielversprechende erste Ergebnisse zeigt. Unser Modell ist eine natürliche Erweiterung der Standard-Bild-Diffusionsarchitektur und ermöglicht es, aus Bild- und Videodaten gemeinsam trainiert zu werden, was wir als Verringerung der Varianz von Minibatch-Gradienten und Beschleunigung der Optimierung feststellen. Um längere und höhere Auflösungsvideos zu erzeugen, führen wir eine neue bedingte Abtasttechnik für die räumliche und zeitliche Erweiterung von Videos ein, die sich besser als bisher vorgeschlagene Methoden erweist. Wir präsentieren die ersten Ergebnisse einer großen textbedingten Videogenerierungs-Aufgabe sowie Stand-des-Wissens-Ergebnisse bei etablierten Benchmarks für die Videovorhersage und bedingungslose Videogenerierung. Ergänzendes Material ist unter https://video-diffusion.github.io/ verfügbar.