Denken mit Bildern für multimodales Schließen: Grundlagen, Methoden und zukünftige Grenzen

Neuere Fortschritte im Bereich der multimodalen Inferenz wurden durch den textbasierten Kette-des-Gedankens-Ansatz (Chain-of-Thought, CoT) erheblich vorangetrieben, bei dem Modelle das Denken innerhalb der Sprache durchführen. Dieser sprachzentrierte Ansatz behandelt jedoch die Vision als statischen, anfänglichen Kontext, was einen grundlegenden „semantischen Abstand“ zwischen reichhaltigen wahrnehmungsbasierten Daten und diskreten symbolischen Gedanken schafft. Die menschliche Kognition überschreitet oft die Sprache und nutzt die Vision als dynamisches geistiges Skizzenblatt. Eine ähnliche Entwicklung ist nun auch in der KI zu beobachten, was eine grundlegende Paradigmenverschiebung von Modellen markiert, die lediglich über Bilder nachdenken, hin zu solchen, die wirklich mit Bildern denken können. Dieses aufkommende Paradigma zeichnet sich dadurch aus, dass Modelle visuelle Informationen als Zwischenschritte in ihrem Denkprozess nutzen, wodurch die Vision von einer passiven Eingabe zu einem dynamischen, verarbeitbaren kognitiven Arbeitsplatz wird. In dieser Übersicht kartieren wir diese Evolution der Intelligenz entlang eines Weges zunehmender kognitiver Autonomie, der sich über drei entscheidende Phasen erstreckt: von der externen Werkzeugexploration über programmatische Manipulation bis zur intrinsischen Vorstellungskraft. Um dieses schnell sich wandelnde Feld zu strukturieren, leisten unsere Übersicht vier wesentliche Beiträge. (1) Wir legen die grundlegenden Prinzipien des Paradigmas des Denkens mit Bildern und seines dreistufigen Rahmens dar. (2) Wir geben eine umfassende Übersicht über die Kernmethoden, die jede Phase dieser Roadmap charakterisieren. (3) Wir analysieren das wichtige Bewertungslandschaft und die transformierenden Anwendungen. (4) Wir identifizieren erhebliche Herausforderungen und skizzieren vielversprechende zukünftige Richtungen. Durch diese strukturierte Übersicht zielen wir darauf ab, eine klare Roadmap für zukünftige Forschung hin zu stärkeren und menschenorientierten multimodalen KI-Systemen bereitzustellen.