Multimodale autoregressive Vorkenntnisbildung großer Vision-Encoder

Wir stellen eine neuartige Methode zur Vortrainierung von großskaligen Vision-Encodern vor. Aufbauend auf jüngsten Fortschritten bei der autoregressiven Vortrainierung von Vision-Modellen erweitern wir dieses Framework auf einen multimodalen Kontext, d. h. Bilder und Text. In dieser Arbeit präsentieren wir AIMV2, eine Familie generalistischer Vision-Encoder, die sich durch einen einfachen Vortrainierungsprozess, Skalierbarkeit und herausragende Leistung in einer Vielzahl von Downstream-Aufgaben auszeichnen. Dies wird erreicht, indem der Vision-Encoder mit einem multimodalen Decoder gekoppelt wird, der autoregressiv rohe Bildpatches und Text-Token generiert. Unsere Encodern überzeugen nicht nur in multimodalen Evaluierungen, sondern auch in rein visuellen Benchmarks wie Lokalisierung, Grounding und Klassifikation. Insbesondere erreicht unser AIMV2-3B-Encoder eine Genauigkeit von 89,5 % auf ImageNet-1k bei gefrorenem Trunk. Zudem übertrifft AIMV2 konsistent die derzeit besten kontrastiven Modelle (z. B. CLIP, SigLIP) bei der multimodalen Bildverstehens in vielfältigen Szenarien.