MMGR:マルチモーダル・ジェネレーティブ・リーズニング
MMGR:マルチモーダル・ジェネレーティブ・リーズニング
Abstract
動画基礎モデルは視覚的に現実的かつ時間的に整合性のあるコンテンツを生成するが、それらが世界シミュレータとして信頼できるかどうかは、物理的・論理的・空間的制約を適切に捉えているかどうかにかかっている。既存の評価指標であるFrechet Video Distance(FVD)は視覚的品質に重点を置いているが、因果関係や物理法則、全体的一貫性の違反といった推論上の失敗を無視している。本研究では、物理的、論理的、3次元空間的、2次元空間的、時間的の5つの推論能力に基づく、原理的な評価フレームワーク「MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)」を提案する。MMGRは、抽象的推論(ARC-AGI、数独)、身体的ナビゲーション(現実世界の3次元ナビゲーションおよび局所化)、物理的常識(スポーツや構成的相互作用)の3つの領域において、生成推論能力を評価する。MMGRは、動画と画像生成の両方において全体的な正しさを要求する細分化された評価指標を採用している。最先端の動画モデル(Veo-3、Sora-2、Wan-2.2)および画像モデル(Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image)をベンチマーク化した結果、各領域における顕著な性能差が明らかになった。モデルは物理的常識タスクではやや良好な結果を示すものの、抽象的推論(ARC-AGIでは正解率が10%未満)では著しく劣り、身体的設定における長期的な空間計画においても困難を抱えている。分析から、現在のモデルにおける主要な限界として、視覚的情報への過度な依存、弱いグローバル状態の一貫性、因果的正確性よりも視覚的妥当性を重視する目的関数の設計が明らかになった。MMGRは、統合的な診断ベンチマークとしての役割を果たし、推論を意識した生成型世界モデルの実現に向けた道筋を示すものである。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.