14日前

DeepPHY:物理推論におけるエージェント型VLMのベンチマーク

Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng
DeepPHY:物理推論におけるエージェント型VLMのベンチマーク
要約

視覚言語モデル(VLMs)は、強力な知覚能力および印象的な視覚的推論能力を示す一方で、複雑かつ動的な環境における細部への注意や正確な行動計画において課題を抱えており、その結果、性能が十分に発揮されない傾向にある。現実世界のタスクは通常、複雑な相互作用、高度な空間的推論、長期的な計画、および継続的な戦略の最適化を必要とするため、対象シナリオにおける物理法則の理解が不可欠となる。しかし、現実世界のシナリオにおいてこれらの能力を評価することは、しばしば費用がかかりすぎるという問題がある。このギャップを埋めるために、本研究では、一連の挑戦的なシミュレート環境を通じて、VLMsの基本的な物理原則に関する理解力と推論能力を体系的に評価することを目的とした新しいベンチマークフレームワーク「DeepPHY」を提案する。DeepPHYは、難易度の異なる複数の物理的推論環境を統合し、細分化された評価指標を組み込んでいる。我々の評価結果から、最新のVLMsですら、記述的な物理的知識を正確かつ予測可能な制御に変換することが困難であることが明らかになった。