HyperAI超神経

EscapeCraft：多模態大モデルの推理智能を評価する3D脱出ゲーム最近、多様なデータ（画像やビデオなど）を取り扱う多模態大モデル（MLLMs）が急速に進化しています。しかし、これらの大モデルが truly 「理解」しているかどうか、特に複雑な視覚的推理タスクにおいて人間に近い判断を下すことができるかどうかは、依然として疑問の余地が残っています。この課題に対処するために、清华大学智能产业研究院（AIR）の劉洋教授チームが、清華大学計算機科学系と復旦大学と協力して、新たに「EscapeCraft」という3D脱出ゲーム環境を開発しました。この環境では、大モデルがさまざまな多模態情報を統合しながら、鍵を拾ったり、ボックスを開けたり、パスワードを解読したり、最終的には部屋から脱出する過程を評価します。 EscapeCraftの特徴 3Dシーンの自動生成とカスタマイズ: EscapeCraftは、さまざまな部屋スタイルや難易度をサポートし、異なる手順や複雑さの組み合わせを設定できます。多模態情報の統合: モデルは視覚、空間、論理などの多様な情報を組み合わせて行動することを要求されます。詳細なプロセス評価: 传统的な結果だけに焦点を当てた評価と異なり、EscapeCraftはモデルの行動パターン、エラーパターン、道具の利用方法などを総合的に測定します。評価結果测评結果は興味深いものでした： - 多くのモデルは、ドアを見つけても壁を循環し続けました。 - 鍵を拾っても、使用法を忘れることも屡見されました。 - あるモデルは、ソファの中にある隠しスロットを探索しようとしましたが、これは単なる予想に過ぎませんでした。これらは個別の失敗ではなく、システム全体の「視覚認識と理解の乖離」を示しています。GPT-4oのような高性能モデルであっても、大部分のサブタスクは偶然の成功であり、真正に理解して完了したものは一部に過ぎません。具体的な評価指標 Intent-Outcome Consistency (I-O連携): モデルの行動とその結果の一貫性を測定し、モデルが「適切な場所で正しいことをしているか」を評価します。 Prop Gain / Grab Ratio / GSR: モデルの探索と推理プロセスにおける行動パターンを捉え、相互作用の品質、推理効率、そして智能度を反映します。評価によると、Difficulty-3レベルにおいて、GPT-4oは26.5%のサブ目標が真正に理解して達成された一方で、その他の大多数は偶然の成功でした。Claude 3.5の場合は、61.1%のエラーが推論に関連し、38.9%が視覚認識に起因しています。今後の展望 EscapeCraftは、未来のAIエージェントや多模態推理、強化学習などの研究を支える柔軟な基盤となっています。多様なモデルの表現力を可視化し、その弱さを明らかにすることで、より高度なAIシステムの開発に貢献することが期待されています。プロジェクトページ: https://thunlp-mt.github.io/EscapeCraft GitHubリポジトリ: https://github.com/THUNLP-MT/EscapeCraft 成果発表: ICCV 2025に採択された論文。著者：王梓玥、董宇睿、羅富文、阮珉源、程志立、陳弛、李鳴、劉洋。共同第一作者は王梓玥と董宇睿。この新たな評価環境は、大モデルが本当に「視覚情報を理解」し、「合理的な判断」を下せるかどうかを厳しく問い直します。

関連リンク

関連リンク

関連リンク

Command Palette

関連リンク

Command Palette

関連リンク

Command Palette

関連リンク