HyperAIHyperAI

Command Palette

Search for a command to run...

Gitter-Diffusionsmodelle für Text-zu-Video-Generierung

Taegyeong Lee Soyeong Kwon Taehwan Kim

Zusammenfassung

Neuere Fortschritte bei Diffusionsmodellen haben die Text-zu-Bild-Generierung erheblich verbessert. Die Generierung von Videos aus Text stellt jedoch eine anspruchsvollere Aufgabe dar als die Bildgenerierung aus Text, da sie deutlich größere Datensätze und höhere Rechenkosten erfordert. Die meisten bestehenden Ansätze zur Video-Generierung nutzen entweder eine 3D-U-Net-Architektur, die die zeitliche Dimension berücksichtigt, oder autoregressive Generierungsmethoden. Diese Verfahren erfordern große Datensätze und sind im Vergleich zur Text-zu-Bild-Generierung hinsichtlich der Rechenkosten eingeschränkt. Um diesen Herausforderungen zu begegnen, schlagen wir ein einfaches, aber effektives neues Grid-Diffusion-Verfahren für die Text-zu-Video-Generierung vor, das weder eine zeitliche Dimension in der Architektur noch ein großes text-video-kompatibles Datenset benötigt. Durch die Darstellung des Videos als Gitterbild können wir eine hochwertige Video-Generierung mit konstantem GPU-Speicherverbrauch unabhängig von der Anzahl der Frames durchführen. Darüber hinaus reduziert unsere Methode die Dimensionen des Videos auf die Dimensionen eines Bildes, sodass verschiedene bildbasierte Methoden nun auch auf Videos angewendet werden können, beispielsweise die textgesteuerte Manipulation von Videos mittels Bildmanipulationstechniken. Unser vorgeschlagener Ansatz übertrifft die bestehenden Methoden sowohl in quantitativen als auch qualitativen Bewertungen und zeigt die Eignung unseres Modells für die praktische Video-Generierung in der realen Welt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gitter-Diffusionsmodelle für Text-zu-Video-Generierung | Paper | HyperAI