vor einem Monat

MANZANO: Ein einfaches und skalierbares einheitliches multimodales Modell mit einem hybriden Vision-Tokenizer

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan

Abstract

Einheitliche multimodale große Sprachmodelle (LLMs), die sowohl visuelle Inhalte verstehen als auch erzeugen können, bergen ein enormes Potenzial. Allerdings leiden bestehende Open-Source-Modelle häufig unter einem Leistungs-Kompromiss zwischen diesen beiden Fähigkeiten. Wir präsentieren Manzano, einen einfachen und skalierbaren einheitlichen Ansatz, der diesen Spannungsabstand erheblich verringert, indem ein hybrider Bildtokenizer mit einem sorgfältig gestalteten Trainingsrezept gekoppelt wird. Ein einzelner gemeinsamer Vision-Encoder versorgt zwei leichte Adapter, die kontinuierliche Embeddings für die Bild-zu-Text-Verständnis-Aufgabe und diskrete Token für die Text-zu-Bild-Generierung innerhalb eines gemeinsamen semantischen Raums erzeugen. Ein einheitliches autoregressives LLM prognostiziert hochwertige Semantik in Form von Text- und Bild-Token, wobei ein zusätzliches Diffusions-Decoder-Modell anschließend die Bild-Token in Pixel übersetzt. Die Architektur zusammen mit einem einheitlichen Trainingsrezept, das sowohl Verständnis- als auch Generierungsdaten umfasst, ermöglicht eine skalierbare gemeinsame Lernprozesse beider Fähigkeiten. Manzano erreicht Spitzenleistungen unter einheitlichen Modellen und ist mit spezialisierten Modellen vergleichbar, insbesondere bei textreichen Evaluierungen. Unsere Studien zeigen geringe Aufgabenkonflikte und konsistente Verbesserungen durch Skalierung der Modellgröße, was unsere Designentscheidung für einen hybriden Tokenizer bestätigt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MANZANO: Ein einfaches und skalierbares einheitliches multimodales Modell mit einem hybriden Vision-Tokenizer

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan17 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan