HyperAIHyperAI
vor 7 Tagen

Phenaki: Variable Länge Videoerzeugung aus offenen Domänen-Textbeschreibungen

Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan
Phenaki: Variable Länge Videoerzeugung aus offenen Domänen-Textbeschreibungen
Abstract

Wir stellen Phenaki vor, ein Modell, das in der Lage ist, realistische Videos zu synthetisieren, gegeben eine Folge von textuellen Prompts. Die Generierung von Videos aus Text ist besonders herausfordernd aufgrund der hohen Rechenkosten, der begrenzten Menge an hochwertigen Text-Video-Daten sowie der variablen Länge der Videos. Um diese Herausforderungen anzugehen, führen wir ein neues Modell zur Lernung von Video-Repräsentationen ein, das das Video auf eine kompakte Darstellung aus diskreten Token reduziert. Dieser Tokenizer nutzt kausale Aufmerksamkeit im Zeitverlauf, wodurch er mit Videos beliebiger Länge arbeiten kann. Um Video-Token aus Text zu generieren, verwenden wir einen bidirektionalen maskierten Transformer, der auf vorberechneten Text-Token basiert. Die generierten Video-Token werden anschließend wieder in ein konkretes Video dekodiert. Um datenbasierte Probleme zu adressieren, zeigen wir, wie eine gemeinsame Trainingsstrategie auf einer großen Korpus von Bild-Text-Paaren sowie einer geringeren Anzahl von Video-Text-Beispielen zu einer Generalisierung führen kann, die über das hinausgeht, was in den verfügbaren Video-Datensätzen enthalten ist. Im Vergleich zu vorherigen Ansätzen zur Video-Generierung kann Phenaki beliebig lange Videos erzeugen, die auf einer Sequenz von Prompts (d. h. zeitlich variierendem Text oder einer Geschichte) basieren, und zwar in einem offenen Domänen-Kontext. So weit wir wissen, ist dies das erste Mal, dass eine Studie die Generierung von Videos aus zeitlich variierenden Prompts untersucht. Zudem erzeugt der vorgeschlagene Video-Encoder-Decoder im Vergleich zu frame-basierten Baselines weniger Token pro Video, erreicht jedoch eine bessere räumlich-zeitliche Konsistenz.

Phenaki: Variable Länge Videoerzeugung aus offenen Domänen-Textbeschreibungen | Neueste Forschungsarbeiten | HyperAI