Command Palette
Search for a command to run...

要約
身体化能力(Embodied capabilities)とは、エージェントが物理世界を認識し、理解し、相互作用するための基礎的な能力群を指す。マルチモーダル大規模言語モデル(MLLM)が身体化エージェントとしての可能性を示している一方で、その身体化能力に関する包括的かつ体系的な評価はまだ十分に行われていない。既存のベンチマークは、主に計画や空間理解といった特定の領域に焦点を当てており、広範な能力を網羅的に評価するには至っていない。このギャップを埋めるために、本研究では原子的な身体化能力を評価できる包括的かつ細粒度なベンチマーク「BEAR」を提案する。BEARは、6つのカテゴリに分類される14のドメインにわたり、4,469件の画像・動画・テキストが交互に配置されたエントリを含んでおり、低レベルの指差し操作から軌道理解、空間推論、高レベルな計画まで、多様なタスクをカバーしている。20種類の代表的なMLLMを対象とした広範な評価結果から、これらのモデルが身体化能力のすべての領域において依然として顕著な限界を抱えていることが明らかになった。この課題に対処するため、事前学習済みの視覚モデルを統合し、MLLMの認識能力、3次元理解能力、計画能力を強化するマルチモーダル対話型エージェント「BEAR-Agent」を提案する。BEAR上で、BEAR-AgentはMLLMの多様な身体化能力を大幅に向上させ、GPT-5において絶対的な性能向上9.12%、相対的な改善率17.5%を達成した。さらに、実験結果から、MLLMの身体化能力を向上させることは、シミュレート環境における身体化タスクの実行にも好影響を与えることが示された。プロジェクトウェブサイト:https://bear-official66.github.io/