Wenn Visualisieren der erste Schritt zum Schlussfolgern ist: MIRA, eine Benchmark für visuelle Kette des Denkens

Abstract
Wir stellen MIRA vor, einen neuen Benchmark, der darauf abzielt, Modelle in Szenarien zu evaluieren, in denen die Generierung von Zwischenbildern für eine erfolgreiche Schlussfolgerung entscheidend ist. Im Gegensatz zu herkömmlichen CoT-Methoden, die sich ausschließlich auf Text stützen, erfordern die Aufgaben in MIRA von den Modellen, Zwischenbilder – wie Skizzen, Strukturdiagramme oder Pfaddarstellungen – zu generieren und zu nutzen, um ihren Schlussfolgerungsprozess zu leiten. Diese Anordnung spiegelt eng wider, wie Menschen komplexe Probleme durch „Zeichnen zum Denken“ lösen. Um sicherzustellen, dass die Evaluierungsdaten von hoher Qualität sind, beinhalten wir 546 multimodale Aufgaben, die mit Zwischenbildern und endgültigen Antworten annotiert sind. Zudem schlagen wir ein einheitliches Evaluationsprotokoll für MIRA vor, das drei Eingabestufen abdeckt: direkte Eingabe mit Bild und Frage, textbasierte CoT-Eingabe mit Bild und Denkansätzen sowie Visual-CoT-Eingabe mit annotierten visuellen Hinweisen und textuellen Denkansätzen. Um die obere Grenze der Modellleistung auf unserem Benchmark zu ermitteln, berichten wir zudem über die Pass@k- und Majority-Voting-Accuracies unter verschiedenen k-Werten. Experimentelle Ergebnisse zeigen, dass bestehende multimodale große Sprachmodelle – sowohl leistungsstarke proprietäre als auch starke Open-Weight-Modelle – bei reiner Textbasierten Eingaben schlecht abschneiden. Sobald jedoch Zwischenvisuelle Hinweise bereitgestellt werden, steigt die Leistung der Modelle konsistent an und erreicht im Durchschnitt eine relative Verbesserung von 33,7 % über alle Modelle und Aufgaben hinweg. Auch die Erweiterung des Suchraums und die Anpassung von Textprompten an die Visual-CoT-Struktur erbringen im Vergleich zu unserem Visual-CoT-Setting nur geringe Verbesserungen. Diese Ergebnisse unterstreichen die entscheidende Rolle imaginierten visuellen Wissens für eine erfolgreiche Schlussfolgerung in MIRA.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.