14일 전

DeepPHY: 물리적 추론에 대한 에이전트형 VLM의 벤치마킹

Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng
DeepPHY: 물리적 추론에 대한 에이전트형 VLM의 벤치마킹
초록

비전 언어 모델(Vision Language Models, VLMs)은 강력한 인지 능력과 놀라운 시각적 추론 능력을 보이지만, 복잡하고 동적인 환경에서 세부 사항에 대한 주의력과 정밀한 동작 계획 수립 측면에서 어려움을 겪어 성능이 부족한 편이다. 실제 세계의 과제는 일반적으로 복잡한 상호작용, 고도의 공간적 추론, 장기적인 계획 수립, 그리고 지속적인 전략 보완을 요구하며, 이는 대상 시나리오의 물리 법칙을 이해하는 데 필수적이다. 그러나 이러한 능력을 실제 환경에서 평가하는 것은 종종 막대한 비용이 들기 때문에 현실적으로 어려운 경우가 많다. 이러한 격차를 메우기 위해 우리는 여러 도전적인 시뮬레이션 환경을 통해 VLM이 기본적인 물리 원리에 대한 이해와 추론 능력을 체계적으로 평가할 수 있도록 설계된 새로운 벤치마크 프레임워크인 DeepPHY를 제안한다. DeepPHY는 난이도가 다른 여러 물리적 추론 환경을 통합하며, 세밀한 평가 지표를 포함하고 있다. 우리의 평가 결과에 따르면, 최첨단 VLM들조차도 묘사형 물리 지식을 정밀하고 예측 가능한 제어로 전환하는 데 어려움을 겪는 것으로 나타났다.