2달 전

TraceVLA: 시각적 추적 프롬프팅이 일반 로봇 정책의 공간-시간 인식을 향상시킴

Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
TraceVLA: 시각적 추적 프롬프팅이 일반 로봇 정책의 공간-시간 인식을 향상시킴
초록

대규모 시각-언어-행동(VLA) 모델은 광범위한 로봇 데이터셋에서 사전 학습되어 로봇 학습을 위한 유망한 일반적인 정책을 제공하지만, 상호작용 로보틱스에서의 공간-시간 역학에 여전히 어려움을 겪고 있어 복잡한 작업(예: 조작) 처리에 있어서 효과가 떨어집니다. 본 연구에서는 VLA 모델이 행동 예측을 위해 시각적으로 상태-행동 궤적을 인코딩하여 공간-시간 인식을 향상시키는 간단하면서도 효과적인 접근 방법인 시각 추적 프롬프팅(visual trace prompting)을 소개합니다. 우리는 자체 수집한 15만 건의 로봇 조작 궤적 데이터셋을 사용하여 OpenVLA를 미세 조정(finetuning)하여 새로운 TraceVLA 모델을 개발하였습니다. SimplerEnv에서 137개 구성과 물리적인 WidowX 로봇에서 4개 작업에 대한 TraceVLA 평가 결과, 최신 기술(state-of-the-art) 성능을 보여주며, SimplerEnv에서는 OpenVLA보다 10% 우수하고 실제 로봇 작업에서는 3.5배 더 좋은 성능을 나타내며 다양한 형태와 시나리오에서 강건한 일반화 능력을 보였습니다. 또한, 본 방법의 유효성과 일반성을 더욱 검증하기 위해, Open-X-Embodiment에서 사전 학습되고 우리 데이터셋으로 미세 조정된 4B Phi-3-Vision 기반의 소형 VLA 모델을 제시합니다. 이 모델은 7B OpenVLA 베이스라인과 경쟁하면서 추론 효율성을 크게 향상시킵니다.

TraceVLA: 시각적 추적 프롬프팅이 일반 로봇 정책의 공간-시간 인식을 향상시킴 | 최신 연구 논문 | HyperAI초신경