2달 전

SpatialVLA: 시각-언어-행동 모델을 위한 공간 표현 탐구

Delin Qu; Haoming Song; Qizhi Chen; Yuanqi Yao; Xinyi Ye; Yan Ding; Zhigang Wang; JiaYuan Gu; Bin Zhao; Dong Wang; Xuelong Li
SpatialVLA: 시각-언어-행동 모델을 위한 공간 표현 탐구
초록

본 논문에서는 공간 이해가 로봇 조작의 핵심 요소임을 주장하며, 로봇 기반 모델을 위한 효과적인 공간 표현을 탐구하기 위해 SpatialVLA를 제안합니다. 구체적으로, 시각-언어-행동 모델의 입력 관측에 3D 정보를 주입하기 위해 Ego3D 위치 인코딩(Ego3D Position Encoding)을 도입하고, 적응형 행동 그리드(Adaptive Action Grids)를 제안하여 로봇의 공간 이동 행동을 적응형 이산화된 행동 그리드로 표현함으로써 다양한 로봇 제어에서 일반화되고 전이 가능한 공간 행동 지식을 학습하는 것을 용이하게 합니다. SpatialVLA는 110만 개의 실제 세계 로봇 에피소드를 기반으로 한 시각-언어 모델 위에서 사전 훈련되어, 여러 로봇 환경과 작업에 걸쳐 일반적인 조작 정책을 학습합니다. 사전 훈련 후, SpatialVLA는 제로샷 방식으로 다수의 작업을 직접 수행할 수 있습니다. 시뮬레이션과 실제 세계 로봇에서 얻은 우수한 결과들은 복잡한 로봇 운동 궤적을 추론하고 강력한 영역 내 다중 작업 일반화 능력을 갖춘SpatialVLA의 장점을 입증합니다. 또한, 제안된 적응형 행동 그리드가 새로운 시뮬레이션 및 실제 세계 설정에서 사전 훈련된 SpatialVLA 모델을 미세 조정(fine-tuning)하는 새로운이고 효과적인 방법임을 보여줍니다. 여기서 사전 학습된 행동 그리드는 재이산화(re-discretized)되어 새로운 설정에서 특정 로봇의 공간 행동 이동을 포착합니다. 광범위한 평가를 통해 얻은 우수한 결과들은 뛰어난 분포 내 일반화 능력과 분포 외 적응 능력을 강조하며, 제안된 공간 인식 표현이 일반적인 로봇 정책 학습에 있어 중요한 이점을 제공함을 부각시킵니다. 모든 세부사항과 코드는 오픈 소스로 공개될 예정입니다.

SpatialVLA: 시각-언어-행동 모델을 위한 공간 표현 탐구 | 최신 연구 논문 | HyperAI초신경