HyperAI초신경
14시간 전

villa-X: 시각-언어-행동 모델에서 잠재 행동 모델링 향상

Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian
villa-X: 시각-언어-행동 모델에서 잠재 행동 모델링 향상
초록

시각-언어-행동(VLA) 모델은 언어 지시를 따르고 새로운 시나리오로 일반화할 수 있는 로봇 조작 정책을 학습하는 데 있어 주목받는 패러다임으로 부상하고 있다. 최근 연구는 VLA 사전 학습에 잠재적 행동(latent action)을 도입하기 시작하고 있다. 잠재적 행동은 두 프레임 간의 시각적 변화를 추상화한 표현으로, 이는 로봇의 동작을 더 효과적으로 모델링할 수 있는 중요한 요소로 주목받고 있다. 본 논문에서는, 일반화 가능한 로봇 조작 정책을 학습하기 위한 잠재적 행동 모델링을 획기적으로 발전시킨 새로운 시각-언어-잠재적행동(ViLLA) 프레임워크인 villa-X를 제안한다. 우리의 접근법은 잠재적 행동의 학습 방식과 VLA 사전 학습에 대한 통합 방식을 모두 개선함으로써, 시뮬레이션 환경(예: SIMPLER 및 LIBERO)에서 뛰어난 성능을 달성할 뿐만 아니라, 그립퍼와 다재다능한 손가락 조작을 포함한 두 가지 실제 로봇 시스템에서도 뛰어난 성능을 보였다. 우리는 ViLLA 패러다임이 큰 잠재력을 지니고 있으며, villa-X가 향후 연구에 중요한 기반을 제공할 것이라 믿는다.