Command Palette

Search for a command to run...

하루 전

PhysToolBench: MLLMs를 위한 물리적 도구 이해 평가

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

PhysToolBench: MLLMs를 위한 물리적 도구 이해 평가

초록

도구를 사용하고 이해하며 창조하는 능력은 인간 지능의 핵심 특징으로, 물리 세계와의 정교한 상호작용을 가능하게 한다. 일반 목적의 지능형 에이전트가 진정한 유연성을 달성하기 위해서는 이러한 기초적인 기술을 습득해야 한다. 현대의 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 몸체 기반 인공지능(embodied AI) 및 하류의 시각-언어-행동(Vision-Language-Action, VLA) 모델에서 고수준 계획 수립에 광범위한 공통 지식을 활용하고 있으나, 이러한 모델이 물리적 도구에 대한 진정한 이해를 얼마나 보유하고 있는지는 여전히 정량화되지 않은 상태이다. 이 격차를 메우기 위해 우리는 MLLMs가 물리적 도구를 이해하는 능력을 평가하는 데 전념한 최초의 벤치마크인 PhysToolBench를 제안한다. 본 벤치마크는 1,000개 이상의 이미지-텍스트 쌍으로 구성된 시각질의응답(Visual Question Answering, VQA) 데이터셋으로 구성되어 있으며, 세 가지 서로 다른 난이도 수준에서 모델의 능력을 평가한다. (1) 도구 인식: 도구의 주요 기능을 식별하는 능력. (2) 도구 이해: 도구 작동 원리를 이해하는 능력. (3) 도구 창조: 기존의 도구가 사용 불가능할 경우 주변 물체를 활용해 새로운 도구를 설계하는 능력. 본 연구에서는 32개의 MLLM(사용자 사전 훈련 모델, 오픈소스 모델, 전용 몸체 기반 모델, VLA의 기반 모델 등)을 종합적으로 평가하여, 도구 이해 능력 측면에서 심각한 부족이 있음을 확인하였다. 또한, 이에 대한 심층적 분석을 제공하고 초기 해결 방안을 제시한다. 코드와 데이터셋은 공개적으로 제공된다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
PhysToolBench: MLLMs를 위한 물리적 도구 이해 평가 | 연구 논문 | HyperAI초신경