Command Palette
Search for a command to run...
World Reasoning Arena
World Reasoning Arena
概要
世界モデル(WMs)は、現実世界の内部シミュレーターとして機能し、エージェントが複雑な環境を理解・予測し、それに対して行動することを可能にすることを目的としている。既存の WM ベンチマークは、次状態予測と視覚的忠実度に対して狭く焦点を当てており、知的行動に必要なより豊かなシミュレーション能力を見落としている。このギャップに対処するため、我々は「WR-Arena」を提案する。これは、次世界シミュレーションの 3 つの根本的次元に沿って WMs を評価するための包括的なベンチマークである。すなわち、(i) 行動シミュレーション忠実度:意味的に有意義な多段階の指示を解釈・追従し、多様な反事実的ロールアウトを生成する能力、(ii) 長期予測:拡張された相互作用を通じて、正確かつ整合性があり、物理的に妥当なシミュレーションを維持する能力、(iii) シミュレーションに基づく推論と計画:構造化された環境およびオープンエンドな環境において、代替的な未来をシミュレーション・比較・選択することで、目的指向の推論を支援する能力、である。我々は、単一ターンや知覚的な評価を超えてこれらの能力を探るためのタスク分類体系を構築し、多様なデータセットをキュレーションした。最先端の WMs を用いた広範な実験を通じて、現在のモデルと人間レベルの仮説的推論の間には著しいギャップが存在することが明らかとなり、WR-Arena が、堅牢な理解・予測・意図的な行動を実現する次世代世界モデルの進展に向けた診断ツールおよび指針として確立されたことを示した。