Command Palette
Search for a command to run...
Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Wenn generative KI unglaublich realistische Videos erzeugen kann, sind wir dann nicht weit von wahrer verkörperter Intelligenz entfernt? Die Antwort dürfte nicht so optimistisch ausfallen.
In den letzten Jahren haben Videogenerierungsmodelle erstaunliche Fortschritte gemacht. Von Licht- und Schattendetails bis hin zu komplexen dynamischen Szenen können viele Modelle heute Bilder erzeugen, die für das bloße Auge kaum von der Realität zu unterscheiden sind. Werden diese Modelle jedoch in Robotersystemen eingesetzt und für Entscheidungsfindung und Ausführung in der realen Welt genutzt, zeigt sich eine ernüchternde Realität: Visueller Realismus hat sich nicht in funktionale Zuverlässigkeit umsetzen lassen.
Aktuelle Bewertungssysteme für verkörperte Weltmodelle basieren größtenteils auf einem eindimensionalen Vergleich des „visuellen Realismus“ – das Modell mit dem klarsten und flüssigsten Video gilt als das bessere. Dabei wird jedoch eine grundlegende Frage übersehen: Können diese Modelle, die zwar ästhetisch ansprechende Videos erzeugen können, tatsächlich stabile Entscheidungsfindung und Handlungen in der realen, physischen Welt unterstützen?
Genau diese Kernfrage versucht das neue Bewertungssystem WorldArena zu beantworten und zu lösen.WorldArena wurde von Institutionen wie der Tsinghua-Universität, der Peking-Universität, der Universität Hongkong, der Princeton-Universität, der Chinesischen Akademie der Wissenschaften, der Shanghai Jiao Tong Universität, der Universität für Wissenschaft und Technologie Chinas und der Nationalen Universität Singapur vorgeschlagen.Statt sich bei der Bewertung auf das visuelle Erscheinungsbild zu beschränken, wurden erstmals die Qualität der Videogenerierung mit der Funktionalität verkörperter Aufgaben verknüpft und ein vollständiges Bewertungsmodell von „sieht realistisch aus“ bis „ist tatsächlich nutzbar“ entwickelt.

Titel des Beitrags: WorldArena: Ein einheitlicher Benchmark zur Bewertung der Wahrnehmung und des funktionalen Nutzens verkörperter Weltmodelle
Papieradresse:
http://arxiv.org/abs/2602.08971
Projekthomepage:
http://world-arena.ai
Bewertungsrangliste:
https://huggingface.co/spaces/WorldArena/WorldArena
Code-Repository:
https://github.com/tsinghua-fib-lab/WorldArena
Neudefinition dessen, was ein "gutes" generiertes Video ausmacht, anhand von sechs Dimensionen.
Um die Qualität der generierten Videos systematisch zu bewerten,WorldArena ist um 6 Kerndimensionen herum strukturiert.Sie konzentrieren sich nicht nur auf die visuelle Ästhetik, sondern befassen sich auch mit den physikalischen Gesetzen und dem räumlichen Vorstellungsvermögen.

Visuelle Qualität
Die visuelle Qualität ist die grundlegendste Beurteilungsebene der Wahrnehmung. Sie misst den Realismus und die statistische Verteilungsähnlichkeit eines Videos auf Pixelebene anhand von Indikatoren wie Bildschärfe, ästhetischer Bewertung und JEPA-Darstellungsähnlichkeit.Diese Dimension beantwortet in erster Linie eine Frage: Entspricht das generierte Ergebnis visuell der tatsächlichen Datenverteilung?

Handlungsqualität
Die Dimension Bewegungsqualität konzentriert sich auf die zeitliche Rationalität durch optische Flusskontinuität, Analyse der Bewegungsintensität und Glätte der Bewegung.Beurteilen Sie, ob die Bewegung der Objekte im Video kohärent und stabil ist und den Naturgesetzen entspricht.Selbst wenn ein Modell klare Bilder erzeugen kann, ist seine physikalische Glaubwürdigkeit noch immer unzureichend, wenn es Sprünge oder Diskontinuitäten in der Bewegungstrajektorie gibt.

Inhaltskonsistenz
In der realen Welt verschwinden oder verändern sich Objekte nicht. Die Dimension der Inhaltskonsistenz verfolgt die Stabilität des Subjekts und des Hintergrunds in Zeit und Raum, um Probleme wie strukturelle Abweichungen, Verwechslungen der Subjektidentität oder Inkonsistenzen im Hintergrund zu erkennen.Diese Dimension betont die Fähigkeit zur Aufrechterhaltung von Konsistenz, was eine Voraussetzung für die Unterstützung langfristiger Aufgaben ist.

Physische Konformität
Physikalische Übereinstimmung ist eine entscheidende Brücke zwischen Bild und Funktion. WorldArena prüft insbesondere, ob die Interaktion zwischen Roboterarm und Objekten im Video plausibel ist und ob die Bewegungsbahn den grundlegenden Gesetzmäßigkeiten der Dynamik entspricht. Anders ausgedrückt: Das Modell muss nicht nur so aussehen, sondern sich auch korrekt bewegen. Diese Dimension ist direkt dafür verantwortlich, ob das Modell für die praktische Steuerung und Planung eingesetzt werden kann.

3D-Genauigkeit
Verkörperte Intelligenz basiert auf dem Verständnis dreidimensionaler Raumstrukturen. Die 3D-Genauigkeitsdimension untersucht, ob das Modell die räumlichen geometrischen Beziehungen der Szene durch Tiefenschätzungsfehler und Perspektivkonsistenz korrekt erfasst. Sind die räumlichen Beziehungen verzerrt, kann der Roboter, selbst wenn das zweidimensionale Bild realistisch ist, nicht auf diese Vorhersage vertrauen, um präzise Operationen auszuführen.

Steuerbarkeit
Schließlich ist da noch die Kontrollierbarkeit, eine Schlüsseleigenschaft für die praktische Anwendbarkeit generativer Modelle.Diese Dimension untersucht, ob das Modell Anweisungen tatsächlich "versteht", ob es auf semantischer Ebene präzise auf Benutzereingaben reagieren kann und ob es unter verschiedenen Bedingungen differenzierende Ergebnisse generieren kann.Die Kontrollierbarkeit hängt nicht nur von der Qualität der generierten Daten ab, sondern auch von der Anpassungsfähigkeit an die jeweilige Aufgabe.

Diese sechs Dimensionen bilden zusammen das umfassende Profil der generierten Videoqualität von WorldArena. Sie sind keine isolierten Indikatoren mehr, sondern bestätigen sich gegenseitig und weisen alle auf ein Ziel hin: Generierte Inhalte müssen einen hohen Grad an Realismus in Bezug auf Wahrnehmung, Zeitlichkeit, Physik, Raum und Semantik aufweisen.
Die eigentliche Bewährungsprobe: Kann das Weltmodell zum Ausführenden der Mission werden?
Wenn die Beurteilung der Videoqualität einer „körperlichen Untersuchung“ gleichkommt, dann ist die Beurteilung der verkörperten Aufgabenfunktionalität eine „Übung in der realen Welt“. Ein weiterer zentraler Durchbruch von WorldArena liegt in der bahnbrechenden Einbettung von Weltmodellen in realistische Missionsausführungsszenarien.Ausgehend von drei Schlüsselrollen untersuchen wir ihren wahren praktischen Nutzen.

Zunächst dient es als Datengenerierungsmaschine.
Können Weltmodelle hochwertige synthetische Trajektoriendaten generieren, um nachgelagerte Policy-Modelle (wie VLA) zu trainieren? Experimentelle Ergebnisse zeigen, dass einige Modelle tatsächlich Leistungsverbesserungen erzielen können. Insgesamt bleibt die Qualität der synthetischen Daten jedoch deutlich hinter der Qualität realer Daten zurück, und die meisten Modelle liefern noch keine stabilen und zuverlässigen Verbesserungen für das Policy-Learning. Die Generierung von Trainingsdaten mithilfe von Weltmodellen bleibt daher eine Herausforderung.

Zweitens dient es als Strategiebewertungsinstrument.
Können Weltmodelle die Dynamik realer Umgebungen präzise simulieren und somit die reale Umgebung bei der Bewertung verschiedener Strategiemodelle ersetzen? Forscher trainierten eine Reihe von VLA-Modellen mit unterschiedlichen Fähigkeiten, testeten sie sowohl in realen Simulationsumgebungen als auch in Weltmodellumgebungen und verglichen die Korrelation der beiden Ergebnissätze. Die Ergebnisse zeigten signifikante Unterschiede: Einige Modelle (wie CtrlWorld) erreichten eine Korrelation von bis zu 0,986 mit der realen Umgebung und waren damit kaum von der Realität zu unterscheiden; andere schnitten hingegen nur mäßig ab, was ihre Schwäche in der visuellen Bewertung widerspiegelt.

Drittens dient es als Aktionsplaner.
Diese Aufgabe integriert ein Weltmodell in ein geschlossenes Regelungssystem und ermöglicht so dessen direkte Beteiligung an der gesamten Aufgabenausführung. Experimente zeigten, dass einige Modelle zwar visuell plausible Zukunftsprognosen erstellen können, ihre Leistung bei der Unterstützung langfristiger, mehrstufiger Regelungsaufgaben jedoch deutlich hinter ausgereiften, spezialisierten Richtlinienmodellen (wie z. B. Pi 0.5) zurückbleibt. Sie mögen zwar bei kurzfristigen Prognosen gut abschneiden, neigen aber dazu, bei komplexen, langfristigen Entscheidungen den Überblick zu verlieren.

Visueller Realismus ist nicht dasselbe wie funktionaler Realismus: eine Kluft, der man sich stellen muss.
Durch eine systematische Auswertung von 14 gängigen Weltmodellen enthüllt WorldArena eine ernüchternde Realität:Zwischen den Fähigkeiten zur visuellen Generierung und den Fähigkeiten zur Aufgabenausführung besteht eine große Diskrepanz.
Viele Modelle können zwar hochrealistische Videos erzeugen, doch sie offenbaren grundlegende Schwächen in Bezug auf komplexe physikalische Interaktionen, langfristige Konsistenz und stabile politische Unterstützung. DaherWorldArena hat mit EWMScore eine einheitliche, umfassende Bewertungsmetrik eingeführt, die mehrdimensionale Videoauswertungsergebnisse in einen einzigen Wert integriert, der über verschiedene Zielgruppen hinweg verglichen werden kann.Wichtig ist, dass EWMScore stark positiv mit der subjektiven menschlichen Beurteilung der Videoqualität korreliert, was seine Wirksamkeit auf der Wahrnehmungsebene beweist.

Als Forscher jedoch eine Korrelationsanalyse zwischen dem EWMScore und der Ausführung verkörperter Aufgaben durchführten, zeigte sich ein alarmierenderes Ergebnis: Die Korrelation mit Aufgaben der Datenverarbeitung lag bei 0,600, die mit Aufgaben der Bewegungsplanung sogar noch niedriger bei 0,360. Diese Daten belegen eindeutig, dass ein visuell ansprechendes Modell nicht zwangsläufig die effektive Unterstützung realer, verkörperter Aufgaben ermöglicht. Die Kluft zwischen „ästhetisch ansprechend“ und „benutzerfreundlich“ stellt eine Herausforderung dar, die die aktuelle Technologie überwinden muss.

Die Bedeutung von WorldArena liegt nicht nur in der Bereitstellung neuer Metriken, sondern auch in der veränderten Forschungsperspektive. Der Fokus verschiebt sich von Wettbewerben zur visuellen Datengenerierung hin zur Überprüfung funktionaler Fähigkeiten; von der Wahrnehmungsrealismus hin zum physikalischen Verständnis und der langfristigen Stabilität von Entscheidungen.
Wenn der Wettbewerb der Weltmodelle sich nicht mehr darauf beschränkt, „wer einem Film ähnlicher ist“, sondern vielmehr darauf, „wer die Physik besser versteht, wer robuster ist und wer die Entscheidungsfindung in der realen Welt besser unterstützen kann“, dann wird die Entwicklung der verkörperten Intelligenz wahrhaftig in eine neue Phase eintreten.
Evaluierungssysteme bestimmen die Richtung der technologischen Entwicklung. WorldArena hat einen notwendigen Weg zu praktischer verkörperter Intelligenz vorgeschlagen.








