Command Palette
Search for a command to run...
Video-Diffusionsmodelle
Video-Diffusionsmodelle
Jonathan Ho* Tim Salimans* Alexey Gritsenko William Chan Mohammad Norouzi David J. Fleet
Zusammenfassung
Die Erstellung zeitlich kohärenter hochwertiger Videos ist ein wichtiger Meilenstein in der Forschung zu generativen Modellen. Wir machen Fortschritte in Richtung dieses Meilensteins, indem wir ein Diffusionsmodell für die Videogenerierung vorschlagen, das sehr vielversprechende erste Ergebnisse zeigt. Unser Modell ist eine natürliche Erweiterung der Standard-Bild-Diffusionsarchitektur und ermöglicht es, aus Bild- und Videodaten gemeinsam trainiert zu werden, was wir als Verringerung der Varianz von Minibatch-Gradienten und Beschleunigung der Optimierung feststellen. Um längere und höhere Auflösungsvideos zu erzeugen, führen wir eine neue bedingte Abtasttechnik für die räumliche und zeitliche Erweiterung von Videos ein, die sich besser als bisher vorgeschlagene Methoden erweist. Wir präsentieren die ersten Ergebnisse einer großen textbedingten Videogenerierungs-Aufgabe sowie Stand-des-Wissens-Ergebnisse bei etablierten Benchmarks für die Videovorhersage und bedingungslose Videogenerierung. Ergänzendes Material ist unter https://video-diffusion.github.io/ verfügbar.