Gitter-Diffusionsmodelle für Text-zu-Video-Generierung

Neuere Fortschritte bei Diffusionsmodellen haben die Text-zu-Bild-Generierung erheblich verbessert. Die Generierung von Videos aus Text stellt jedoch eine anspruchsvollere Aufgabe dar als die Bildgenerierung aus Text, da sie deutlich größere Datensätze und höhere Rechenkosten erfordert. Die meisten bestehenden Ansätze zur Video-Generierung nutzen entweder eine 3D-U-Net-Architektur, die die zeitliche Dimension berücksichtigt, oder autoregressive Generierungsmethoden. Diese Verfahren erfordern große Datensätze und sind im Vergleich zur Text-zu-Bild-Generierung hinsichtlich der Rechenkosten eingeschränkt. Um diesen Herausforderungen zu begegnen, schlagen wir ein einfaches, aber effektives neues Grid-Diffusion-Verfahren für die Text-zu-Video-Generierung vor, das weder eine zeitliche Dimension in der Architektur noch ein großes text-video-kompatibles Datenset benötigt. Durch die Darstellung des Videos als Gitterbild können wir eine hochwertige Video-Generierung mit konstantem GPU-Speicherverbrauch unabhängig von der Anzahl der Frames durchführen. Darüber hinaus reduziert unsere Methode die Dimensionen des Videos auf die Dimensionen eines Bildes, sodass verschiedene bildbasierte Methoden nun auch auf Videos angewendet werden können, beispielsweise die textgesteuerte Manipulation von Videos mittels Bildmanipulationstechniken. Unser vorgeschlagener Ansatz übertrifft die bestehenden Methoden sowohl in quantitativen als auch qualitativen Bewertungen und zeigt die Eignung unseres Modells für die praktische Video-Generierung in der realen Welt.