초록

비전-언어-행동(Vision-Language-Action, VLA) 모델은 일반적으로 로봇 데이터를 기반으로 대규모 비전-언어 모델(Vision-Language Model, VLM)을 사전 훈련함으로써 인지 공간과 행동 공간 사이의 격차를 해소한다. 이 접근법은 성능을 크게 향상시키지만, 상당한 훈련 비용을 수반한다. 본 논문에서는 비전-언어(VL) 표현과 행동(A) 간의 효과적인 연결 방식을 탐구한다. 이를 위해 우리는 VLA-Adapter라는 새로운 패러다임을 제안하며, VLA 모델이 대규모 VLM 및 방대한 사전 훈련에 의존하는 정도를 줄이도록 설계하였다. 이를 위해 먼저 다양한 VL 조건의 효과성을 체계적으로 분석하고, 인지 공간과 행동 공간을 연결하는 데 있어 필수적인 조건에 대한 핵심 발견을 제시한다. 이러한 통찰을 바탕으로, 행동 공간에 최적의 조건을 자동으로 주입할 수 있는 브리지 어텐션(Bridge Attention)을 갖춘 경량 정책 모듈(Weight Policy Module)을 제안한다. 본 방법은 로봇 데이터의 사전 훈련 없이도 단 0.5B 파라미터의 백본(backbone)만으로 높은 성능을 달성한다. 시뮬레이션 및 실제 로봇 벤치마크에서 실시한 광범위한 실험 결과, VLA-Adapter는 최신 기술 수준의 성능을 달성할 뿐만 아니라, 지금까지 보고된 바 가장 빠른 추론 속도를 제공함을 입증하였다. 또한 제안된 고도화된 연결 패러다임 덕분에, VLA-Adapter는 단일 소비자급 GPU에서 단 8시간 내에 강력한 VLA 모델을 훈련할 수 있어, VLA 모델의 실용적 도입 장벽을 크게 낮추었다. 프로젝트 페이지: https://vla-adapter.github.io/.

소스 PDF 코드 보기