Command Palette
Search for a command to run...
Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Abstract
Die visuelle Tokenisierung bleibt eine zentrale Herausforderung bei der Vereinheitlichung von visuellem Verständnis und -generierung im autoregressiven Paradigma. Bestehende Methoden verwenden typischerweise Tokenizer in diskreten Latenträumen, um mit den Tokens großer Sprachmodelle kompatibel zu sein. Hierbei können Quantisierungsfehler die semantische Ausdruckskraft einschränken und die Fähigkeit des visuell-sprachlichen Verständnisses beeinträchtigen. Um dieses Problem anzugehen, stellen wir MingTok vor – eine neue Familie visueller Tokenizer mit kontinuierlichem Latentraum, die eine einheitliche autoregressive Generierung und Erkenntnis ermöglicht. Während Verständnistasks diskriminative, hochdimensionale Merkmale bevorzugen, bevorzugen Generierungsaufgaben kompakte, niedrigstufige Codes. Um diese gegensätzlichen Anforderungen zu harmonisieren, verfolgt MingTok eine dreistufige sequenzielle Architektur, bestehend aus niedrigstufiger Kodierung, semantischer Erweiterung und visueller Rekonstruktion. Auf dieser Grundlage entwickeln wir Ming-UniVision, das keine aufgabe-spezifischen visuellen Darstellungen mehr erfordert und diverse visuell-sprachliche Aufgaben unter einem einzigen autoregressiven Vorhersageparadigma vereint. Indem sowohl Verständnis- als auch Generierungsaufgaben als Next-Token-Vorhersage in einem gemeinsamen kontinuierlichen Raum formuliert werden, unterstützt das System nahtlos mehrrunde, kontextbasierte Aufgaben wie iterative Erkenntnis, Generierung und Bearbeitung. Empirisch zeigen wir, dass die Verwendung einer einheitlichen kontinuierlichen visuellen Darstellung die widersprüchlichen Anforderungen der Verständnis- und Generierungsaufgaben an die Tokenizer ausgleicht und somit eine state-of-the-art-Leistung in beiden Domänen ermöglicht. Wir hoffen, dass unsere Erkenntnisse die Entwicklung einheitlicher visueller Tokenisierung im kontinuierlichen Raum voranbringen werden. Der Inferenzcode und die Modellgewichte werden der Forschungsgemeinschaft zur Verfügung gestellt, um deren Fortschritt zu unterstützen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.