MMGR: Multimodale generative Reasoning
MMGR: Multimodale generative Reasoning
Abstract
Video-Grundmodellen gelingt die Erzeugung visuell realistischer und zeitlich konsistenter Inhalte, doch ihre Zuverlässigkeit als Welt-Simulatoren hängt davon ab, ob sie physikalische, logische und räumliche Einschränkungen angemessen erfassen. Bestehende Metriken wie die Frechet Video Distance (FVD) legen den Fokus auf die perceptuelle Qualität und ignorieren dabei Schlüsselmängel im reasoning, wie Verletzungen von Kausalität, Physik und globaler Konsistenz. Wir stellen MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark) vor, einen prinzipienbasierten Evaluierungsrahmen, der auf fünf Schlüsselkompetenzen des reasoning basiert: Physikalisch, Logisch, 3D-Räumlich, 2D-Räumlich und Zeitlich. MMGR bewertet das generative reasoning über drei Domänen: Abstraktes Reasoning (ARC-AGI, Sudoku), Embodied Navigation (realweltbasierte 3D-Navigation und Lokalisierung) sowie Physikalisches Alltagswissen (Sport und kompositionelle Interaktionen). MMGR setzt fein abgestimmte Metriken ein, die eine ganzheitliche Korrektheit sowohl bei der Video- als auch bei der Bildgenerierung erfordern. Wir benchmarken führende Video-Modelle (Veo-3, Sora-2, Wan-2.2) sowie Bildmodelle (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), wobei sich erhebliche Leistungsunterschiede zwischen den Domänen ergeben. Die Modelle zeigen moderate Erfolge bei Aufgaben im Bereich des physikalischen Alltagswissens, erzielen jedoch nur geringe Genauigkeiten bei abstraktem Reasoning (unter 10 % bei ARC-AGI) und zeigen erhebliche Schwierigkeiten bei der räumlichen Planung über lange Zeiträume in embodied Szenarien. Unsere Analyse deckt zentrale Limitationen aktueller Modelle auf, darunter eine starke Abhängigkeit von perceptuellen Daten, eine schwache globale Zustandskonsistenz sowie Optimierungsziele, die visuelle Plausibilität gegenüber kausaler Korrektheit bevorzugen. MMGR bietet einen einheitlichen diagnostischen Benchmark und einen Weg hin zu generativen Weltmodellen, die bewusst auf reasoning ausgerichtet sind.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.