Command Palette
Search for a command to run...
Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

要約
最近の生成型動画モデル(例:Veo-3)の進展は、驚くべきゼロショット推論能力を示しており、体系的かつ信頼性の高い評価手法の必要性が高まっている。本研究では、構造的問題解決、空間認知、パターンに基づく推論、物理的ダイナミクスの4つの主要次元における動画推論能力を評価することを目的としたベンチマーク「V-ReasonBench」を提案する。このベンチマークは合成データと実世界の画像系列の両方を基盤として構築されており、再現可能でスケーラブルかつ曖昧さのない、答えの検証が可能な多様なタスクを提供する。最先端の6つの動画モデルに対する評価により、構造的・空間的・パターンに基づく・物理的推論の各次元において明確な差異が明らかになった。さらに、優れた画像モデルとの比較を通じて、一般的な誤生成(ホールーシュネーション)の挙動を分析し、動画の長さが「フレーム連鎖推論(Chain-of-Frames reasoning)」に与える影響についても検討した。総じて、V-ReasonBenchは動画推論能力を統一的かつ再現可能に測定するフレームワークを提供し、より信頼性が高く人間の価値観に整合した推論能力を持つモデルの開発を支援することを目的としている。