HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag

ThinkMorph: Emergente Eigenschaften bei multimodaler abwechselnder Denkketten-Reasoning

Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

ThinkMorph: Emergente Eigenschaften bei multimodaler abwechselnder Denkketten-Reasoning

Abstract

Multimodales Denken erfordert eine iterative Koordination zwischen Sprache und Vision, doch ist unklar, was eine sinnvolle, ineinander verschachtelte Kette des Denkens ausmacht. Wir vermuten, dass Text- und Bildgedanken als ergänzende, nicht isomorphe Modalitäten fungieren sollten, die sich gegenseitig bei der Reasoning-Prozessierung unterstützen. Ausgehend von diesem Prinzip entwickeln wir ThinkMorph, ein einheitliches Modell, das an 24.000 hochwertigen, ineinander verschachtelten Denkverläufen feinabgestimmt wurde, die Aufgaben mit unterschiedlichem visuellem Engagement abdecken. ThinkMorph lernt, schrittweise Text-Bild-Reasoning-Schritte zu generieren, die den visuellen Inhalt konkret manipulieren, während gleichzeitig eine kohärente sprachliche Logik beibehalten wird. Das Modell erzielt erhebliche Leistungssteigerungen auf visionzentrierten Benchmarks (durchschnittlich 34,7 % gegenüber dem Basismodell) und generalisiert auf außerhalb des Trainingsdomänen liegende Aufgaben, wobei es größere und proprietäre VLMs (Vision-Language-Modelle) entweder erreicht oder sogar übertreffen kann. Abgesehen von der reinen Leistung zeigt ThinkMorph emergente multimodale Intelligenz, darunter bisher nicht gesehene Fähigkeiten zur visuellen Manipulation, adaptive Wechsel zwischen verschiedenen Reasoning-Modi sowie eine verbesserte Skalierbarkeit im Testzeitpunkt durch diversifizierte multimodale Gedanken. Diese Ergebnisse weisen auf vielversprechende Ansätze hin, um die emergenten Fähigkeiten einheitlicher Modelle für multimodales Denken zu charakterisieren.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp