Command Palette

Search for a command to run...

20일 전

공간적 강제: 시각-언어-행동 모델을 위한 암묵적 공간 표현 정렬

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

공간적 강제: 시각-언어-행동 모델을 위한 암묵적 공간 표현 정렬

초록

시각-언어-행동(Vision-Language-Action, VLA) 모델은 로봇이 언어 지시를 이해하고 정밀한 동작을 수행할 수 있도록 하는 데 있어 최근 강력한 잠재력을 보여주고 있다. 그러나 대부분의 VLA 모델은 2차원(2D) 데이터만으로 사전 훈련된 시각-언어 모델에 기반하고 있어 정확한 공간 인식 능력이 부족하며, 이는 3차원(3D) 물리 세계에서의 작동 능력을 제한한다. 기존의 해결 방안들은 깊이 맵이나 포인트 클라우드와 같은 명시적인 3D 센서 입력을 도입하려는 시도를 하지만, 센서 노이즈, 하드웨어의 이질성, 기존 데이터셋에서의 깊이 정보 부족 등의 문제로 인해 한계를 겪고 있다. 반면, 2D 이미지에서 3D 정보를 추정하는 대안적 방법 역시 깊이 추정기의 성능 한계로 인해 제한된 성능을 보인다. 이에 우리는 명시적인 3D 입력이나 깊이 추정기를 사용하지 않고도 VLA 모델이 공간 인식 능력을 내재적으로 습득하도록 유도하는 간단하면서도 효과적인 정렬 전략인 공간 강제(Spatial Forcing, SF)를 제안한다. SF는 사전 훈련된 3D 기반 모델이 생성한 기하학적 표현과 VLA의 중간 단계 시각 임베딩을 정렬함으로써, 모델이 더 � бог rich한 공간 표현을 인코딩하도록 유도한다. 중간 레이어에서 정렬을 강제함으로써 SF는 동작 정밀도를 향상시키는 데 기여한다. 시뮬레이션 및 실제 환경에서 실시한 광범위한 실험 결과, SF는 2D 기반 및 3D 기반 VLA 모델을 모두 능가하는 최신 기술 수준의 성능을 달성함을 입증했다. 또한 SF는 다양한 로봇 작업에서 훈련 속도를 최대 3.8배 가속시키며, 데이터 효율성도 향상시킨다. 프로젝트 페이지는 아래 링크에서 확인할 수 있다: https://spatial-forcing.github.io/

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
공간적 강제: 시각-언어-행동 모델을 위한 암묵적 공간 표현 정렬 | 연구 논문 | HyperAI초신경