HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag
Agent
Benchmarks

World Reasoning Arena

Zusammenfassung

World Models (WMs) sollen als interne Simulatoren der realen Welt fungieren, die Agenten befähigen, komplexe Umgebungen zu verstehen, vorherzusagen und in ihnen zu handeln. Bestehende Benchmarks für WMs konzentrieren sich nach wie vor stark auf die Vorhersage des nächsten Zustands und die visuelle Fidelität und vernachlässigen dabei die reichhaltigeren Simulationsfähigkeiten, die für intelligentes Verhalten erforderlich sind. Um diese Lücke zu schließen, stellen wir WR-Arena vor, einen umfassenden Benchmark zur Evaluierung von WMs entlang dreier fundamentaler Dimensionen der zukünftigen Welt-Simulation: (i) Action Simulation Fidelity, also die Fähigkeit, semantisch sinnvolle, mehrstufige Anweisungen zu interpretieren und umzusetzen sowie diverse kontrafaktische Rollouts zu generieren; (ii) Long-horizon Forecast, also die Fähigkeit, über längere Interaktionen hinweg genaue, kohärente und physikalisch plausible Simulationen aufrechtzuerhalten; sowie (iii) Simulative Reasoning und Planning, also die Fähigkeit, zielgerichtetes Schlussfolgern zu unterstützen, indem in strukturierten wie auch offenen Umgebungen alternative Zukunftsszenarien simuliert, verglichen und ausgewählt werden. Wir entwickeln eine Task-Taxonomie und kuratieren diverse Datensätze, die darauf ausgelegt sind, diese Fähigkeiten zu testen, und gehen dabei über Einzel-Interaktions- und rein wahrnehmungsbasierte Evaluierungen hinaus. Durch umfangreiche Experimente mit state-of-the-art WMs zeigen unsere Ergebnisse eine erhebliche Kluft zwischen aktuellen Modellen und menschlichem hypothetischem Schlussfolgern auf und etablieren WR-Arena sowohl als Diagnoseinstrument als auch als Leitfaden für die Weiterentwicklung der nächsten Generation von World Models, die ein robustes Verständnis, präzise Vorhersagen und zielgerichtetes Handeln ermöglichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp