Command Palette

Search for a command to run...

한 달 전

기초 모델은 단계별 몸체 인식 추론에서 얼마나 우수한가?

Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

기초 모델은 단계별 몸체 인식 추론에서 얼마나 우수한가?

초록

물리 세계에서 작동하는 몸을 지닌 에이전트는 효과적인 결정을 내리는 것 외에도 안전하고 공간적으로 일관되며 맥락에 기반한 의사결정을 수행해야 한다. 최근 대규모 다중모달 모델(LMMs)의 발전은 시각적 이해 및 언어 생성 측면에서 유망한 능력을 보여주고 있으나, 실제 몸을 가진 환경에서 구조적 사고를 수행하는 능력에 대해서는 여전히 탐색이 부족한 상태이다. 본 연구에서는 기초 모델이 몸을 지닌 환경에서 단계별 사고를 얼마나 잘 수행할 수 있는지 이해하는 것을 목표로 한다. 이를 위해 복잡한 몸을 지닌 의사결정 시나리오에서 LMM의 사고 능력을 평가할 수 있도록 설계된 ‘기초 모델 몸을 지닌 사고(FoMER)’ 벤치마크를 제안한다. 본 벤치마크는 에이전트가 다중모달 관측을 해석하고, 물리적 제약과 안전성에 대해 사고하며, 자연어로 유효한 다음 행동을 생성해야 하는 다양한 작업을 포괄한다. 본 연구에서는 (i) 몸을 지닌 사고 작업의 대규모이고 체계화된 세트, (ii) 인지적 기반(perceptual grounding)과 행동 사고(action reasoning)를 분리하여 평가할 수 있는 새로운 평가 프레임워크, (iii) 해당 설정 하에서 주요 LMM들의 실증적 분석을 제시한다. 본 벤치마크는 10개의 작업과 8개의 에이전트 구현 형태(로봇 유형 3종 포함)를 포함하며, 총 1,100건 이상의 샘플과 세부적인 단계별 사고를 제공한다. 실험 결과는 LMM이 몸을 지닌 사고에서 가진 잠재력과 현재의 한계를 동시에 드러내며, 로봇 지능 분야의 향후 연구를 위한 핵심적 도전과 기회를 제시한다. 본 연구의 데이터와 코드는 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
기초 모델은 단계별 몸체 인식 추론에서 얼마나 우수한가? | 연구 논문 | HyperAI초신경