HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

MANZANO: Ein einfaches und skalierbares einheitliches multimodales Modell mit einem hybriden Vision-Tokenizer

MANZANO: Ein einfaches und skalierbares einheitliches multimodales Modell mit einem hybriden Vision-Tokenizer

Abstract

Einheitliche multimodale große Sprachmodelle (LLMs), die sowohl visuelle Inhalte verstehen als auch erzeugen können, bergen ein enormes Potenzial. Allerdings leiden bestehende Open-Source-Modelle häufig unter einem Leistungs-Kompromiss zwischen diesen beiden Fähigkeiten. Wir präsentieren Manzano, einen einfachen und skalierbaren einheitlichen Ansatz, der diesen Spannungsabstand erheblich verringert, indem ein hybrider Bildtokenizer mit einem sorgfältig gestalteten Trainingsrezept gekoppelt wird. Ein einzelner gemeinsamer Vision-Encoder versorgt zwei leichte Adapter, die kontinuierliche Embeddings für die Bild-zu-Text-Verständnis-Aufgabe und diskrete Token für die Text-zu-Bild-Generierung innerhalb eines gemeinsamen semantischen Raums erzeugen. Ein einheitliches autoregressives LLM prognostiziert hochwertige Semantik in Form von Text- und Bild-Token, wobei ein zusätzliches Diffusions-Decoder-Modell anschließend die Bild-Token in Pixel übersetzt. Die Architektur zusammen mit einem einheitlichen Trainingsrezept, das sowohl Verständnis- als auch Generierungsdaten umfasst, ermöglicht eine skalierbare gemeinsame Lernprozesse beider Fähigkeiten. Manzano erreicht Spitzenleistungen unter einheitlichen Modellen und ist mit spezialisierten Modellen vergleichbar, insbesondere bei textreichen Evaluierungen. Unsere Studien zeigen geringe Aufgabenkonflikte und konsistente Verbesserungen durch Skalierung der Modellgröße, was unsere Designentscheidung für einen hybriden Tokenizer bestätigt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MANZANO: Ein einfaches und skalierbares einheitliches multimodales Modell mit einem hybriden Vision-Tokenizer | Forschungsarbeiten | HyperAI