Command Palette
Search for a command to run...
Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

要約
チェーン・オブ・シンス(CoT)プロンプティングは、大規模言語モデル(LLM)における高度な記号的推論を可能にするが、依然として離散的なテキストに限定されており、現実世界の連続的かつ物理法則に従う動的挙動を模倣することができない。近年、ビデオ生成モデルが「チェーン・オブ・フレーム(CoF)」推論を通じて、潜在的な世界シミュレータとして登場している——つまり、思考をフレーム単位の視覚的シーケンスとして具現化し、各フレームが物理的に根拠を持つ推論ステップを表す仕組みである。これまでも強力な実証例が示されてきたものの、依然として課題が残っている:既存のベンチマークは視覚的忠実度や整合性に焦点を当てており、CoF推論そのものを評価していないため、マルチステップ計画、アルゴリズム論理、抽象的パターンの外挿といった核心的な認知能力を測定することができない。この評価の空白は、モデルの能力に関する体系的な理解を妨げており、改善に向けた原則的な指針を提供することも不可能である。本研究では、認知科学と現実世界のAI応用に根ざしたGen-ViRe(Generative Visual Reasoning Benchmark)を提案する。このフレームワークは、CoF推論を「知覚的論理」から「抽象的計画」までの六つの認知次元に分解し、合計24のサブタスクを設定している。マルチソースデータの収集、最小限のプロンプティングプロトコル、および詳細な評価基準に基づくハイブリッドVLM(視覚言語モデル)支援評価を採用することで、Gen-ViReは、ビデオモデルが「推論者」としての能力を定量的に評価する初のフレームワークを提供する。最先端システムを対象とした実験の結果、目覚ましい視覚的品質と実際の推論の深さの間に顕著な乖離が確認された。これにより、真の世界シミュレータの発展に向けた基準値と診断ツールが確立された。