Command Palette

Search for a command to run...

21일 전

BEAR: 원자 수준의 몸체 능력을 위한 다중 모달 언어 모델의 벤치마킹 및 향상

BEAR: 원자 수준의 몸체 능력을 위한 다중 모달 언어 모델의 벤치마킹 및 향상

초록

신체화된 능력(embodied capabilities)이란 에이전트가 물리적 세계를 인지하고 이해하며 상호작용할 수 있는 기본적인 능력을 의미한다. 다중모달 대규모 언어모델(MLLM)은 신체화된 에이전트로서의 가능성을 보여주고 있으나, 기존의 평가 벤치마크들이 주로 계획 또는 공간 이해와 같은 특정 도메인에 집중하고 있어, MLLM의 신체화된 능력에 대한 체계적이고 종합적인 평가는 여전히 부족한 실정이다. 이러한 격차를 메우기 위해, 우리는 원자 수준의 신체화된 능력을 평가할 수 있는 포괄적이고 세부적인 벤치마크인 BEAR를 제안한다. BEAR는 6개 카테고리에 걸쳐 14개 도메인에 걸쳐 총 4,469개의 이미지-영상-텍스트 혼합 입력을 포함하며, 저수준의 지시(pointing) 작업부터 궤적 이해, 공간 추론, 고수준의 계획에 이르기까지 다양한 태스크를 아우른다. 대표적인 20개의 MLLM에 대한 광범위한 평가 결과는, 신체화된 능력의 모든 도메인에서 MLLM이 여전히 지속적인 한계를 가지고 있음을 보여준다. 이러한 한계를 극복하기 위해, 사전 훈련된 비전 모델을 통합하여 MLLM의 인지 능력, 3D 이해 능력, 그리고 계획 능력을 강화하는 다중모달 대화형 에이전트인 BEAR-Agent를 제안한다. BEAR 벤치마크에서 다양한 신체화된 능력에 걸쳐 MLLM의 성능을 크게 향상시켰으며, GPT-5 기준으로 절대적 성능 향상 9.12%, 상대적 성능 향상 17.5%를 달성하였다. 또한 실험 결과, MLLM의 신체화된 능력 향상이 시뮬레이션 환경 내 신체화된 태스크 수행에 긍정적인 영향을 미칠 수 있음을 확인하였다. 프로젝트 웹사이트: https://bear-official66.github.io/

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp