vor einem Tag

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Zusammenfassung

World Models (WMs) sollen als interne Simulatoren der realen Welt fungieren, die Agenten befähigen, komplexe Umgebungen zu verstehen, vorherzusagen und in ihnen zu handeln. Bestehende Benchmarks für WMs konzentrieren sich nach wie vor stark auf die Vorhersage des nächsten Zustands und die visuelle Fidelität und vernachlässigen dabei die reichhaltigeren Simulationsfähigkeiten, die für intelligentes Verhalten erforderlich sind. Um diese Lücke zu schließen, stellen wir WR-Arena vor, einen umfassenden Benchmark zur Evaluierung von WMs entlang dreier fundamentaler Dimensionen der zukünftigen Welt-Simulation: (i) Action Simulation Fidelity, also die Fähigkeit, semantisch sinnvolle, mehrstufige Anweisungen zu interpretieren und umzusetzen sowie diverse kontrafaktische Rollouts zu generieren; (ii) Long-horizon Forecast, also die Fähigkeit, über längere Interaktionen hinweg genaue, kohärente und physikalisch plausible Simulationen aufrechtzuerhalten; sowie (iii) Simulative Reasoning und Planning, also die Fähigkeit, zielgerichtetes Schlussfolgern zu unterstützen, indem in strukturierten wie auch offenen Umgebungen alternative Zukunftsszenarien simuliert, verglichen und ausgewählt werden. Wir entwickeln eine Task-Taxonomie und kuratieren diverse Datensätze, die darauf ausgelegt sind, diese Fähigkeiten zu testen, und gehen dabei über Einzel-Interaktions- und rein wahrnehmungsbasierte Evaluierungen hinaus. Durch umfangreiche Experimente mit state-of-the-art WMs zeigen unsere Ergebnisse eine erhebliche Kluft zwischen aktuellen Modellen und menschlichem hypothetischem Schlussfolgern auf und etablieren WR-Arena sowohl als Diagnoseinstrument als auch als Leitfaden für die Weiterentwicklung der nächsten Generation von World Models, die ein robustes Verständnis, präzise Vorhersagen und zielgerichtetes Handeln ermöglichen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Tag

Agent

Benchmarks

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Tag

Agent

Benchmarks

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

World Reasoning Arena

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang7 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

World Reasoning Arena

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang7 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

World Reasoning Arena

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang7 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang