HyperAIHyperAI

Command Palette

Search for a command to run...

Phenaki: Variable Länge Videoerzeugung aus offenen Domänen-Textbeschreibungen

Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang Mohammad Taghi Saffar Santiago Castro Julius Kunze Dumitru Erhan

Zusammenfassung

Wir stellen Phenaki vor, ein Modell, das in der Lage ist, realistische Videos zu synthetisieren, gegeben eine Folge von textuellen Prompts. Die Generierung von Videos aus Text ist besonders herausfordernd aufgrund der hohen Rechenkosten, der begrenzten Menge an hochwertigen Text-Video-Daten sowie der variablen Länge der Videos. Um diese Herausforderungen anzugehen, führen wir ein neues Modell zur Lernung von Video-Repräsentationen ein, das das Video auf eine kompakte Darstellung aus diskreten Token reduziert. Dieser Tokenizer nutzt kausale Aufmerksamkeit im Zeitverlauf, wodurch er mit Videos beliebiger Länge arbeiten kann. Um Video-Token aus Text zu generieren, verwenden wir einen bidirektionalen maskierten Transformer, der auf vorberechneten Text-Token basiert. Die generierten Video-Token werden anschließend wieder in ein konkretes Video dekodiert. Um datenbasierte Probleme zu adressieren, zeigen wir, wie eine gemeinsame Trainingsstrategie auf einer großen Korpus von Bild-Text-Paaren sowie einer geringeren Anzahl von Video-Text-Beispielen zu einer Generalisierung führen kann, die über das hinausgeht, was in den verfügbaren Video-Datensätzen enthalten ist. Im Vergleich zu vorherigen Ansätzen zur Video-Generierung kann Phenaki beliebig lange Videos erzeugen, die auf einer Sequenz von Prompts (d. h. zeitlich variierendem Text oder einer Geschichte) basieren, und zwar in einem offenen Domänen-Kontext. So weit wir wissen, ist dies das erste Mal, dass eine Studie die Generierung von Videos aus zeitlich variierenden Prompts untersucht. Zudem erzeugt der vorgeschlagene Video-Encoder-Decoder im Vergleich zu frame-basierten Baselines weniger Token pro Video, erreicht jedoch eine bessere räumlich-zeitliche Konsistenz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Phenaki: Variable Länge Videoerzeugung aus offenen Domänen-Textbeschreibungen | Paper | HyperAI