11일 전

일반화 로봇 정책을 향해: 시각-언어-행동 모델을 구축할 때 무엇이 중요한가

Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu
일반화 로봇 정책을 향해: 시각-언어-행동 모델을 구축할 때 무엇이 중요한가
초록

기초 시각-언어 모델(Vision-Language Models, VLMs)은 다중 모달 표현 학습, 이해 및 추론 능력에서 뛰어난 성능을 보입니다. VLM에 행동 요소를 통합함으로써 자연스럽게 시각-언어-행동 모델(Vision-Language-Action Models, VLAs)을 구성할 수 있으며, 이는 다양한 시나리오와 작업에서 유망한 성능을 나타냅니다. 기존 연구들은 VLAs의 효과성과 일반화 능력을 여러 맥락에서 입증해 왔습니다. 그러나 기존 VLM에서 VLA로의 전이 과정은 간단하지 않으며, 기존 VLAs는 백본 구조, 행동 예측 설정, 데이터 분포, 학습 전략 측면에서 상이하기 때문입니다. 이러한 차이들로 인해 VLAs의 설계 선택에 대한 체계적인 이해가 부족한 상황입니다. 본 연구에서는 VLA 성능에 크게 영향을 미치는 핵심 요인을 밝히고, 다음과 같은 세 가지 핵심 설계 선택에 초점을 맞춥니다: 어떤 백본을 선택할 것인지, VLA 아키텍처는 어떻게 구성할 것인지, 그리고 언제 교차 표현(cross-embodiment) 데이터를 추가할 것인지. 실험 결과는 VLA의 필요성을 명확히 설명하고, 매우 적은 수의 수동적 설계로도 새로운 최고 성능을 달성하는 새로운 VLA 계열인 RoboVLM을 개발할 근거를 확신하게 만들었습니다. 이는 8개 이상의 VLM 백본, 4종의 정책 아키텍처, 600건 이상의 고유한 실험 설계를 포함하는 광범위한 실험을 통해 입증되었습니다. 이를 통해 향후 VLAs 설계를 위한 상세한 가이드북을 제공합니다. 본 연구 외에도, 새로운 VLM의 간편한 통합과 다양한 설계 선택의 자유로운 조합을 지원하는 높은 유연성의 RoboVLM framework를 공개하여 향후 연구의 발전을 촉진합니다. 코드, 모델, 데이터셋, 도구 키트, 그리고 자세한 학습 및 평가 절차를 포함한 모든 세부 사항은 robovlms.github.io 에서 오픈소스로 공개됩니다.

일반화 로봇 정책을 향해: 시각-언어-행동 모델을 구축할 때 무엇이 중요한가 | 최신 연구 논문 | HyperAI초신경