HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale autoregressive Vorkenntnisbildung großer Vision-Encoder

Zusammenfassung

Wir stellen eine neuartige Methode zur Vortrainierung von großskaligen Vision-Encodern vor. Aufbauend auf jüngsten Fortschritten bei der autoregressiven Vortrainierung von Vision-Modellen erweitern wir dieses Framework auf einen multimodalen Kontext, d. h. Bilder und Text. In dieser Arbeit präsentieren wir AIMV2, eine Familie generalistischer Vision-Encoder, die sich durch einen einfachen Vortrainierungsprozess, Skalierbarkeit und herausragende Leistung in einer Vielzahl von Downstream-Aufgaben auszeichnen. Dies wird erreicht, indem der Vision-Encoder mit einem multimodalen Decoder gekoppelt wird, der autoregressiv rohe Bildpatches und Text-Token generiert. Unsere Encodern überzeugen nicht nur in multimodalen Evaluierungen, sondern auch in rein visuellen Benchmarks wie Lokalisierung, Grounding und Klassifikation. Insbesondere erreicht unser AIMV2-3B-Encoder eine Genauigkeit von 89,5 % auf ImageNet-1k bei gefrorenem Trunk. Zudem übertrifft AIMV2 konsistent die derzeit besten kontrastiven Modelle (z. B. CLIP, SigLIP) bei der multimodalen Bildverstehens in vielfältigen Szenarien.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp