Command Palette
Search for a command to run...
Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

초록
물리 세계에서 작동하는 몸을 지닌 에이전트는 효과적인 결정을 내리는 것 외에도 안전하고 공간적으로 일관되며 맥락에 기반한 의사결정을 수행해야 한다. 최근 대규모 다중모달 모델(LMMs)의 발전은 시각적 이해 및 언어 생성 측면에서 유망한 능력을 보여주고 있으나, 실제 몸을 가진 환경에서 구조적 사고를 수행하는 능력에 대해서는 여전히 탐색이 부족한 상태이다. 본 연구에서는 기초 모델이 몸을 지닌 환경에서 단계별 사고를 얼마나 잘 수행할 수 있는지 이해하는 것을 목표로 한다. 이를 위해 복잡한 몸을 지닌 의사결정 시나리오에서 LMM의 사고 능력을 평가할 수 있도록 설계된 ‘기초 모델 몸을 지닌 사고(FoMER)’ 벤치마크를 제안한다. 본 벤치마크는 에이전트가 다중모달 관측을 해석하고, 물리적 제약과 안전성에 대해 사고하며, 자연어로 유효한 다음 행동을 생성해야 하는 다양한 작업을 포괄한다. 본 연구에서는 (i) 몸을 지닌 사고 작업의 대규모이고 체계화된 세트, (ii) 인지적 기반(perceptual grounding)과 행동 사고(action reasoning)를 분리하여 평가할 수 있는 새로운 평가 프레임워크, (iii) 해당 설정 하에서 주요 LMM들의 실증적 분석을 제시한다. 본 벤치마크는 10개의 작업과 8개의 에이전트 구현 형태(로봇 유형 3종 포함)를 포함하며, 총 1,100건 이상의 샘플과 세부적인 단계별 사고를 제공한다. 실험 결과는 LMM이 몸을 지닌 사고에서 가진 잠재력과 현재의 한계를 동시에 드러내며, 로봇 지능 분야의 향후 연구를 위한 핵심적 도전과 기회를 제시한다. 본 연구의 데이터와 코드는 공개될 예정이다.