옥토: 오픈소스 일반화 로봇 정책

다양한 로봇 데이터셋으로 사전 훈련된 대규모 정책은 로봇 학습의 패러다임을 변화시킬 잠재력을 지닌다. 새로운 정책을 처음부터 훈련하는 대신, 이러한 일반화된 로봇 정책은 적은 양의 도메인 내 데이터만으로도 미세조정(finetuning)이 가능하면서도 광범위한 일반화 성능을 발휘할 수 있다. 그러나 다양한 로봇 학습 시나리오, 환경, 작업에 걸쳐 널리 적용되기 위해서는, 이러한 정책은 다양한 센서와 행동 공간을 처리할 수 있어야 하며, 일반적으로 사용되는 다양한 로봇 플랫폼을 지원해야 하며, 새로운 도메인으로의 미세조정이 쉽게且 효율적으로 이루어져야 한다. 본 연구에서는 로봇 조작을 위한 오픈소스이며 널리 적용 가능한 일반화된 정책을 개발하기 위한 기반을 마련하고자 한다. 첫 번째 단계로, 지금까지 가장 큰 로봇 조작 데이터셋인 Open X-Embodiment 데이터셋에서 수집된 80만 개의 트레이젝터리(trajectory)를 기반으로 훈련된 대규모 트랜스포머 기반 정책인 Octo를 제안한다. Octo는 언어 명령어나 목표 이미지를 통해 지시받을 수 있으며, 일반 소비자용 GPU에서 몇 시간 내에 새로운 감지 입력과 행동 공간을 가진 로봇 설정으로 효과적으로 미세조정이 가능하다. 9개의 로봇 플랫폼에서 수행한 실험을 통해, Octo가 새로운 관측 공간과 행동 공간으로의 미세조정에 효과적인 정책 초기화(initialization) 역할을 할 수 있음을 입증하였다. 또한, 아키텍처부터 훈련 데이터에 이르기까지 Octo 모델의 설계 결정에 대한 철저한 아블레이션(ablative) 분석을 수행하여, 향후 일반화된 로봇 모델을 구축하기 위한 연구 방향을 제시하였다.