HyperAIHyperAI
vor 8 Tagen

Sprachmodell schlägt Diffusionsmodell – Der Tokenizer ist entscheidend für die visuelle Generierung

Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
Sprachmodell schlägt Diffusionsmodell – Der Tokenizer ist entscheidend für die visuelle Generierung
Abstract

Obwohl große Sprachmodelle (Large Language Models, LLMs) die dominierenden Modelle für generative Aufgaben im Sprachbereich darstellen, erzielen sie bei der Bild- und Videogenerierung deutlich schlechtere Ergebnisse als Diffusionsmodelle. Um LLMs effektiv für visuelle Generierung einzusetzen, ist eine entscheidende Komponente der visuelle Tokenizer, der Eingaben im Pixelraum in diskrete Tokens überführt, die für das Lernen von LLMs geeignet sind. In diesem Paper stellen wir MAGVIT-v2 vor, einen Video-Tokenizer, der sowohl für Videos als auch für Bilder konsistente und expressive Tokens unter Verwendung eines gemeinsamen Token-Vokabulars erzeugt. Mit diesem neuen Tokenizer zeigen wir, dass LLMs auf Standardbenchmarks für Bild- und Videogenerierung – einschließlich ImageNet und Kinetics – die Leistung von Diffusionsmodellen übertreffen. Zudem demonstrieren wir, dass unser Tokenizer die bisher bestperformende Video-Tokenizer-Technik bei zwei weiteren Aufgaben übertrifft: (1) eine Video-Kompression, die im Hinblick auf menschliche Bewertungen mit dem nächsten Generationen-Videocodec (VCC) vergleichbar ist, und (2) die Lernung effektiver Repräsentationen für Aufgaben der Aktionserkennung.

Sprachmodell schlägt Diffusionsmodell – Der Tokenizer ist entscheidend für die visuelle Generierung | Neueste Forschungsarbeiten | HyperAI