Command Palette
Search for a command to run...
Von Pixeln zu Wörtern – Hin zu nativen visuellen Sprachprimitiven in Skalierung
Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Abstract
Das Fundament der nativen Vision-Language-Modelle (VLMs) hat sich als ein aufstrebender Konkurrent typischer modulargebundener VLMs etabliert, geprägt durch sich weiterentwickelnde Modellarchitekturen und Trainingsparadigmen. Dennoch werfen zwei andauernde Herausforderungen Schatten auf deren breite Erforschung und Förderung: Erstens – Welche grundlegenden Einschränkungen unterscheiden native VLMs von modularen Modellen, und in welchem Maße können diese Barrieren überwunden werden? Zweitens – Wie lässt sich die Forschung an nativen VLMs zugänglicher und demokratischer gestalten, um den Fortschritt in diesem Bereich zu beschleunigen? In diesem Paper klären wir diese Herausforderungen und formulieren Leitprinzipien für die Entwicklung nativer VLMs. Konkret sollte eine native VLM-Primitive folgende Eigenschaften aufweisen: (i) eine effektive Ausrichtung von Pixel- und Wortrepräsentationen innerhalb eines gemeinsamen semantischen Raums; (ii) eine nahtlose Integration der Stärken ehemals getrennter Vision- und Sprachmodule; (iii) eine inhärente Abbildung verschiedener cross-modaler Eigenschaften, die eine einheitliche Vision-Sprache-Encodierung, -Ausrichtung und -Reasoning ermöglichen. Dementsprechend präsentieren wir NEO, eine neuartige Familie nativer VLMs, die auf grundlegenden Prinzipien basiert und in unterschiedlichen realen Anwendungsszenarien mit führenden modularen Gegenstücken konkurrieren kann. Mit lediglich 390 Mio. Bild-Text-Beispielen entwickelt NEO effizient visuelle Wahrnehmung von Grund auf, während es gleichzeitig vision-sprachliche Konflikte innerhalb eines dichten, monolithischen Modells reduziert, das aus unseren sorgfältig entworfenen Primitiven zusammengesetzt ist. Wir positionieren NEO als Eckpfeiler skalierbarer und leistungsfähiger nativer VLMs und stellen eine umfassende Sammlung wiederverwendbarer Komponenten bereit, die ein kosteneffizientes und erweiterbares Ökosystem fördern. Unser Quellcode und die Modelle sind öffentlich zugänglich unter: https://github.com/EvolvingLMMs-Lab/NEO.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.