Können Welten-Simulatoren reasoning? Gen-ViRe: Eine generative visuelle Reasoning-Benchmark
Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

Abstract
Während die Chain-of-Thought-(CoT)-Prompting-Technik fortgeschrittene symbolische Schlussfolgerung in großen Sprachmodellen ermöglicht, bleibt sie auf diskrete Texte beschränkt und kann die kontinuierlichen, physikalisch gesteuerten Dynamiken der realen Welt nicht simulieren. Kürzlich etablierte Videogenerationsmodelle haben sich als potenzielle Welt-Simulatoren durch Chain-of-Frames-(CoF)-Schlussfolgerung etabliert – indem sie Gedanken als frame-basierte visuelle Sequenzen materialisieren, wobei jeder Frame einen physikalisch fundierten Schlussfolgerungsschritt darstellt. Trotz überzeugender Demonstrationen besteht weiterhin eine Herausforderung: Bestehende Benchmarks, die sich auf Fidelität oder Alignment konzentrieren, bewerten keine CoF-Schlussfolgerung und können daher die zentralen kognitiven Fähigkeiten im Bereich mehrschrittiger Planung, algorithmischer Logik oder abstrakten Musterextrapolation nicht messen. Dieser Evaluierungs-Defizit verhindert ein systematisches Verständnis der Modellfähigkeiten und eine fundierte Leitlinie für deren Verbesserung. Wir stellen Gen-ViRe (Generative Visual Reasoning Benchmark) vor, einen Rahmen, der auf kognitiver Wissenschaft und realen Anwendungen künstlicher Intelligenz basiert und die CoF-Schlussfolgerung in sechs kognitive Dimensionen – von perceptueller Logik bis hin zu abstrakter Planung – sowie 24 Unter-Aufgaben zerlegt. Durch die Kombination von Datenbeschaffung aus mehreren Quellen, minimalen Prompting-Protokollen und einer hybriden Bewertung mittels visuell-sprachlicher Modelle (VLMs) mit detaillierten Kriterien liefert Gen-ViRe die erste quantitative Bewertung von Videomodellen als Schlussfolgerungssysteme. Unsere Experimente an state-of-the-art-Systemen offenbaren erhebliche Diskrepanzen zwischen beeindruckender visueller Qualität und tatsächlichem Schlussfolgerungstiefgang, wodurch Baselines und diagnostische Werkzeuge bereitgestellt werden, um echte Welt-Simulatoren weiterzuentwickeln.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.