Command Palette
Search for a command to run...
Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

要約
道具の使用、理解、創造ができる能力は、人間の知能の特徴的な側面であり、物理世界との高度な相互作用を可能にする。汎用的な知能エージェントが真の汎用性を達成するためには、こうした基本的なスキルを習得する必要がある。近年のマルチモーダル大規模言語モデル(MLLM)は、 embodied AI における高レベルな計画や、下流の視覚・言語・行動(VLA)モデルにおいて、広範な共通知識を活用しているが、それらが物理的道具をどれだけ真正に理解しているかは、依然として定量的に評価されていない。このギャップを埋めるために、本研究ではMLLMによる物理的道具理解を評価することを目的とした、初めてのベンチマーク「PhysToolBench」を提案する。本ベンチマークは、1,000組を超える画像・テキストペアから構成される視覚質問応答(VQA)データセットとして設計されており、以下の3つの難易度レベルに分けてモデルの能力を評価している。(1)道具認識:道具の主な機能を識別すること。(2)道具理解:道具の動作原理を正確に把握できるかを検証する。(3)道具創造:従来の選択肢が利用できない状況において、周囲の物体から新たな道具を設計・構築できるかを課題とする。本研究では、プロプライエタリ型、オープンソース型、エージェント特化型、VLAのバックボーン型を含む32種類のMLLMについて包括的な評価を行い、道具理解に関する著しい課題が明らかになった。さらに、詳細な分析を実施し、初期的な解決策を提案する。コードおよびデータセットは公開されている。