Command Palette
Search for a command to run...
MANZANO: Ein einfaches und skalierbares einheitliches multimodales Modell mit einem hybriden Vision-Tokenizer

Abstract
Einheitliche multimodale große Sprachmodelle (LLMs), die sowohl visuelle Inhalte verstehen als auch erzeugen können, bergen ein enormes Potenzial. Allerdings leiden bestehende Open-Source-Modelle häufig unter einem Leistungs-Kompromiss zwischen diesen beiden Fähigkeiten. Wir präsentieren Manzano, einen einfachen und skalierbaren einheitlichen Ansatz, der diesen Spannungsabstand erheblich verringert, indem ein hybrider Bildtokenizer mit einem sorgfältig gestalteten Trainingsrezept gekoppelt wird. Ein einzelner gemeinsamer Vision-Encoder versorgt zwei leichte Adapter, die kontinuierliche Embeddings für die Bild-zu-Text-Verständnis-Aufgabe und diskrete Token für die Text-zu-Bild-Generierung innerhalb eines gemeinsamen semantischen Raums erzeugen. Ein einheitliches autoregressives LLM prognostiziert hochwertige Semantik in Form von Text- und Bild-Token, wobei ein zusätzliches Diffusions-Decoder-Modell anschließend die Bild-Token in Pixel übersetzt. Die Architektur zusammen mit einem einheitlichen Trainingsrezept, das sowohl Verständnis- als auch Generierungsdaten umfasst, ermöglicht eine skalierbare gemeinsame Lernprozesse beider Fähigkeiten. Manzano erreicht Spitzenleistungen unter einheitlichen Modellen und ist mit spezialisierten Modellen vergleichbar, insbesondere bei textreichen Evaluierungen. Unsere Studien zeigen geringe Aufgabenkonflikte und konsistente Verbesserungen durch Skalierung der Modellgröße, was unsere Designentscheidung für einen hybriden Tokenizer bestätigt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.