4時間前

概要

マルチモーダルLLMは、ロボットから仮想世界に至るまで、3D環境における自律エージェントの知覚基盤として、その展開が加速している。これらの応用には、エージェントが第一人称視点から、状態の急激な変化を知覚し、行動を正しい実体に帰属させ、並行するマルチエージェントの振る舞いを推論する能力が求められるが、既存のベンチマークはこれらの能力を十分に評価できていない。本研究では、ビデオ理解を通じてエージェント中心の知覚と推論を評価するためのフレームワーク「GameplayQA」を提案する。具体的には、マルチプレイヤー3Dゲームプレイ動画を1秒あたり1.22のラベルという高密度で注釈付けし、状態・行動・事象を「自己」「他のエージェント」「世界」という三項体系に構造化した、時間同期かつ並行的なキャプションを生成した。これはマルチエージェント環境における自然的な分解手法である。これらの注釈に基づき、3段階の認知的複雑性を持つ2,400件の診断用QAペアを精製するとともに、モデルのハルシネーション発生箇所を微細に分析可能とする構造化された誤答分類体系（distractor taxonomy）を整備した。最先端のMLLMsの評価結果からは、人間の性能との間に著しい乖離が確認され、特に時間的およびクロスビデオ的なグラウンディング、エージェントの役割帰属、ゲーム内の意思決定密度の処理において共通の失敗が観測された。GameplayQAは、具身知能（embodied AI）、エージェント知覚、世界モデルリングの交差点における将来の研究を刺激することを期待する。

ソースPDF