11일 전

OpenVLA: 오픈소스 비전-언어-액션 모델

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
OpenVLA: 오픈소스 비전-언어-액션 모델
초록

인터넷 규모의 시각-언어 데이터와 다양한 로봇 시연 데이터를 결합하여 사전 훈련된 대규모 정책 모델은 로봇에게 새로운 기술을 가르치는 방식을 변화시킬 잠재력을 지닌다. 새로운 행동을 처음부터 훈련하는 대신, 이러한 시각-언어-행동(Visual-Language-Action, VLA) 모델을 미세 조정(fine-tune)함으로써 시각-운동 제어를 위한 강건하고 일반화 가능한 정책을 도출할 수 있다. 그러나 VLA 모델의 로봇 분야에서의 광범위한 도입은 여전히 도전 과제로 남아 있다. 그 이유는 1) 기존의 VLA 모델들이 대부분 폐쇄형이며 일반 대중이 접근하기 어려운 점, 그리고 2) 새로운 작업에 대해 VLA 모델을 효율적으로 미세 조정할 수 있는 방법을 탐색하지 못한 점이다. 이러한 문제를 해결하기 위해, 우리는 97만 건의 실제 세계 로봇 시연 데이터를 기반으로 훈련된 70억 파라미터 규모의 오픈소스 VLA 모델인 OpenVLA를 소개한다. OpenVLA는 Llama 2 언어 모델과 DINOv2 및 SigLIP의 사전 훈련된 특징을 융합하는 시각 인코더를 결합하여 구현되었다. 추가된 데이터 다양성과 새로운 모델 구성 요소의 영향으로, OpenVLA는 일반화된 조작 능력에서 뛰어난 성능을 보이며, 29개 작업과 여러 로봇 구현체에 걸쳐 RT-2-X(550억 파라미터)와 같은 폐쇄형 모델보다 절대 작업 성공률에서 16.5% 우수한 성능을 기록했으며, 파라미터 수는 7배 적다. 또한, 새로운 환경에 대해 OpenVLA를 효과적으로 미세 조정할 수 있음을 입증하였으며, 다수의 물체가 포함된 다중 작업 환경에서 특히 강한 일반화 성능과 강력한 언어 기반 이해 능력을 보였다. 이는 Diffusion Policy와 같은 초기부터의 애니메이션 학습(imitation learning) 방법보다 20.4% 높은 성능을 달성한 것이다. 또한 계산 효율성에 대해서도 탐구하였으며, 별도의 기여로, OpenVLA는 최신 저랭크 적응(low-rank adaptation) 기법을 통해 소비자용 GPU에서 미세 조정이 가능하며, 양자화를 통해 효율적으로 서비스할 수 있음을 보였다. 이 과정에서 하류 작업 성공률에 영향을 주지 않는다. 마지막으로, 모델 체크포인트, 미세 조정 노트북, 그리고 Open X-Embodiment 데이터셋에서 VLA 모델을 대규모로 훈련할 수 있도록 내장된 지원 기능을 제공하는 PyTorch 코드베이스를 공개한다.

OpenVLA: 오픈소스 비전-언어-액션 모델 | 최신 연구 논문 | HyperAI초신경