HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachmodell schlägt Diffusionsmodell – Der Tokenizer ist entscheidend für die visuelle Generierung

Zusammenfassung

Obwohl große Sprachmodelle (Large Language Models, LLMs) die dominierenden Modelle für generative Aufgaben im Sprachbereich darstellen, erzielen sie bei der Bild- und Videogenerierung deutlich schlechtere Ergebnisse als Diffusionsmodelle. Um LLMs effektiv für visuelle Generierung einzusetzen, ist eine entscheidende Komponente der visuelle Tokenizer, der Eingaben im Pixelraum in diskrete Tokens überführt, die für das Lernen von LLMs geeignet sind. In diesem Paper stellen wir MAGVIT-v2 vor, einen Video-Tokenizer, der sowohl für Videos als auch für Bilder konsistente und expressive Tokens unter Verwendung eines gemeinsamen Token-Vokabulars erzeugt. Mit diesem neuen Tokenizer zeigen wir, dass LLMs auf Standardbenchmarks für Bild- und Videogenerierung – einschließlich ImageNet und Kinetics – die Leistung von Diffusionsmodellen übertreffen. Zudem demonstrieren wir, dass unser Tokenizer die bisher bestperformende Video-Tokenizer-Technik bei zwei weiteren Aufgaben übertrifft: (1) eine Video-Kompression, die im Hinblick auf menschliche Bewertungen mit dem nächsten Generationen-Videocodec (VCC) vergleichbar ist, und (2) die Lernung effektiver Repräsentationen für Aufgaben der Aktionserkennung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp