vor einem Monat

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Details der Forschungsarbeit anzeigen Code anzeigen

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Abstract

Die visuelle Tokenisierung bleibt eine zentrale Herausforderung bei der Vereinheitlichung von visuellem Verständnis und -generierung im autoregressiven Paradigma. Bestehende Methoden verwenden typischerweise Tokenizer in diskreten Latenträumen, um mit den Tokens großer Sprachmodelle kompatibel zu sein. Hierbei können Quantisierungsfehler die semantische Ausdruckskraft einschränken und die Fähigkeit des visuell-sprachlichen Verständnisses beeinträchtigen. Um dieses Problem anzugehen, stellen wir MingTok vor – eine neue Familie visueller Tokenizer mit kontinuierlichem Latentraum, die eine einheitliche autoregressive Generierung und Erkenntnis ermöglicht. Während Verständnistasks diskriminative, hochdimensionale Merkmale bevorzugen, bevorzugen Generierungsaufgaben kompakte, niedrigstufige Codes. Um diese gegensätzlichen Anforderungen zu harmonisieren, verfolgt MingTok eine dreistufige sequenzielle Architektur, bestehend aus niedrigstufiger Kodierung, semantischer Erweiterung und visueller Rekonstruktion. Auf dieser Grundlage entwickeln wir Ming-UniVision, das keine aufgabe-spezifischen visuellen Darstellungen mehr erfordert und diverse visuell-sprachliche Aufgaben unter einem einzigen autoregressiven Vorhersageparadigma vereint. Indem sowohl Verständnis- als auch Generierungsaufgaben als Next-Token-Vorhersage in einem gemeinsamen kontinuierlichen Raum formuliert werden, unterstützt das System nahtlos mehrrunde, kontextbasierte Aufgaben wie iterative Erkenntnis, Generierung und Bearbeitung. Empirisch zeigen wir, dass die Verwendung einer einheitlichen kontinuierlichen visuellen Darstellung die widersprüchlichen Anforderungen der Verständnis- und Generierungsaufgaben an die Tokenizer ausgleicht und somit eine state-of-the-art-Leistung in beiden Domänen ermöglicht. Wir hoffen, dass unsere Erkenntnisse die Entwicklung einheitlicher visueller Tokenisierung im kontinuierlichen Raum voranbringen werden. Der Inferenzcode und die Modellgewichte werden der Forschungsgemeinschaft zur Verfügung gestellt, um deren Fortschritt zu unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv6 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv