Command Palette

Search for a command to run...

12일 전

지가브레인-0: 월드 모델 기반의 비전-언어-액션 모델

지가브레인-0: 월드 모델 기반의 비전-언어-액션 모델

초록

일반적 기능을 갖춘 로봇을 위한 시각-언어-행동(Vision-Language-Action, VLA) 모델 훈련은 일반적으로 대규모 실세계 로봇 데이터를 필요로 하며, 이러한 데이터 수집은 비용이 많이 들고 시간이 오래 걸리는 과정이다. 물리적 데이터 수집의 비효율성은 현재 VLA 시스템의 확장성과 일반화 능력에 심각한 제약을 가한다. 이 문제를 해결하기 위해, 우리는 세계 모델(World Model)이 생성한 데이터(예: 영상 생성, real2real 전이, 인간 전이, 시점 전이, sim2real 전이 데이터 등)를 기반으로 한 새로운 VLA 기반 모델인 GigaBrain-0을 제안한다. 세계 모델을 활용해 대규모로 다양한 데이터를 생성함으로써, GigaBrain-0는 실로봇 데이터에 대한 의존도를 크게 줄이면서도, 다양한 작업 간의 일반화 성능을 향상시킨다. 본 연구에서는 RGBD 입력 모델링과 몸체화된 사고 체계(Chain-of-Thought, CoT) 감독을 통해 정책의 견고성을 추가로 강화함으로써, 모델이 작업 수행 중 공간 기하학, 물체 상태, 장기적 의존성에 대해 추론할 수 있도록 했다. 이는 정교한 작업, 장기적 시퀀스 작업, 이동형 조작 작업 등에서 실세계 성능에 상당한 향상을 가져왔다. 광범위한 실험을 통해 GigaBrain-0가 외관(예: 질감, 색상)의 변화, 물체 배치, 카메라 시점의 차이에 걸쳐 뛰어난 일반화 성능을 달성함을 입증하였다. 또한, NVIDIA Jetson AGX Orin과 같은 장치에서 효율적으로 작동할 수 있도록 최적화된 경량 버전인 GigaBrain-0-Small도 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
지가브레인-0: 월드 모델 기반의 비전-언어-액션 모델 | 연구 논문 | HyperAI초신경