Command Palette
Search for a command to run...
World Reasoning Arena
World Reasoning Arena
Zusammenfassung
World Models (WMs) sollen als interne Simulatoren der realen Welt fungieren, die Agenten befähigen, komplexe Umgebungen zu verstehen, vorherzusagen und in ihnen zu handeln. Bestehende Benchmarks für WMs konzentrieren sich nach wie vor stark auf die Vorhersage des nächsten Zustands und die visuelle Fidelität und vernachlässigen dabei die reichhaltigeren Simulationsfähigkeiten, die für intelligentes Verhalten erforderlich sind. Um diese Lücke zu schließen, stellen wir WR-Arena vor, einen umfassenden Benchmark zur Evaluierung von WMs entlang dreier fundamentaler Dimensionen der zukünftigen Welt-Simulation: (i) Action Simulation Fidelity, also die Fähigkeit, semantisch sinnvolle, mehrstufige Anweisungen zu interpretieren und umzusetzen sowie diverse kontrafaktische Rollouts zu generieren; (ii) Long-horizon Forecast, also die Fähigkeit, über längere Interaktionen hinweg genaue, kohärente und physikalisch plausible Simulationen aufrechtzuerhalten; sowie (iii) Simulative Reasoning und Planning, also die Fähigkeit, zielgerichtetes Schlussfolgern zu unterstützen, indem in strukturierten wie auch offenen Umgebungen alternative Zukunftsszenarien simuliert, verglichen und ausgewählt werden. Wir entwickeln eine Task-Taxonomie und kuratieren diverse Datensätze, die darauf ausgelegt sind, diese Fähigkeiten zu testen, und gehen dabei über Einzel-Interaktions- und rein wahrnehmungsbasierte Evaluierungen hinaus. Durch umfangreiche Experimente mit state-of-the-art WMs zeigen unsere Ergebnisse eine erhebliche Kluft zwischen aktuellen Modellen und menschlichem hypothetischem Schlussfolgern auf und etablieren WR-Arena sowohl als Diagnoseinstrument als auch als Leitfaden für die Weiterentwicklung der nächsten Generation von World Models, die ein robustes Verständnis, präzise Vorhersagen und zielgerichtetes Handeln ermöglichen.