14시간 전
villa-X: 시각-언어-행동 모델에서 잠재 행동 모델링 향상
Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian

초록
시각-언어-행동(VLA) 모델은 언어 지시를 따르고 새로운 시나리오로 일반화할 수 있는 로봇 조작 정책을 학습하는 데 있어 주목받는 패러다임으로 부상하고 있다. 최근 연구는 VLA 사전 학습에 잠재적 행동(latent action)을 도입하기 시작하고 있다. 잠재적 행동은 두 프레임 간의 시각적 변화를 추상화한 표현으로, 이는 로봇의 동작을 더 효과적으로 모델링할 수 있는 중요한 요소로 주목받고 있다. 본 논문에서는, 일반화 가능한 로봇 조작 정책을 학습하기 위한 잠재적 행동 모델링을 획기적으로 발전시킨 새로운 시각-언어-잠재적행동(ViLLA) 프레임워크인 villa-X를 제안한다. 우리의 접근법은 잠재적 행동의 학습 방식과 VLA 사전 학습에 대한 통합 방식을 모두 개선함으로써, 시뮬레이션 환경(예: SIMPLER 및 LIBERO)에서 뛰어난 성능을 달성할 뿐만 아니라, 그립퍼와 다재다능한 손가락 조작을 포함한 두 가지 실제 로봇 시스템에서도 뛰어난 성능을 보였다. 우리는 ViLLA 패러다임이 큰 잠재력을 지니고 있으며, villa-X가 향후 연구에 중요한 기반을 제공할 것이라 믿는다.