Command Palette
Search for a command to run...
Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

초록
시각-언어-행동(Vision-Language-Action, VLA) 모델은 다양한 대규모 데이터셋으로 사전 훈련된 후, 일반 목적의 로봇 조작에 놀라운 잠재력을 보이고 있다. 그러나 이러한 모델을 하류 작업에 적용하는 데 있어 주요한 한계는, 로봇의 몸체(embodiment)나 작업 자체가 사전 훈련 데이터와 다를 경우의 적응이 어렵다는 점이다. 이로 인해 행동 분포 간의 큰 불일치가 발생하며, 효과적인 미세조정을 위해서는 막대한 데이터와 계산 자원이 요구된다. 이 문제를 해결하기 위해, 우리는 \textbf{Align-Then-stEer (\texttt{ATE})}라는 새로운 데이터 효율적이고 즉시 사용 가능한 적응 프레임워크를 제안한다. \texttt{ATE}는 먼저 다양한 행동 공간을 통합된 잠재 공간에서 정렬함으로써, 역 KL 발산을 제약 조건으로 하는 변분 오토인코더(Variational Autoencoder)를 통해 적응 행동을 사전 훈련된 행동 잠재 분포의 모드에 매핑한다. 이후, 미세조정 과정에서 확산 또는 흐름 기반(VLA) 모델의 생성 과정을 안내하는 메커니즘을 통해 모델의 출력 분포를 목표 도메인 쪽으로 유도한다. 우리는 시뮬레이션과 실제 환경에서의 교차 몸체 및 교차 작업 조작에 대해 광범위한 실험을 수행하였다. 대표적인 VLA 모델에 대한 직접 미세조정과 비교했을 때, 제안한 방법은 시뮬레이션 환경에서 평균 다중 작업 성공률을 최대 \textbf{9.8\%} 향상시켰으며, 실제 환경에서의 교차 몸체 설정에서는 \textbf{32\%의 성공률 향상}을 달성하였다. 본 연구는 새로운 로봇 플랫폼과 작업에 VLA 모델을 실용적으로 도입하는 데 있어 일반적이고 가벼운 해결책을 제시한다.